所屬欄目:計算機應用論文 發(fā)布日期:2015-12-07 16:17 熱度:
入侵檢測一直是計算機網(wǎng)絡安全中重要的研究熱點之一[1]。由于當前網(wǎng)絡安全威脅形式呈現(xiàn)多樣化,因黑客攻擊、行業(yè)競爭等原因引發(fā)的安全問題無一不在威脅著計算機網(wǎng)絡下的系統(tǒng)終端用戶。本文是一篇科學論文投稿范文,主要論述了基于樹突細胞算法與對支持向量機的入侵檢測。
摘要:針對入侵檢測技術在處理大規(guī)模數(shù)據(jù)時存在的高誤報率、低訓練速度和低實時性的問題,提出了一種基于樹突細胞算法與對支持向量機的入侵檢測策略(DCTWSVM)。利用樹突細胞算法(DCA)對威脅數(shù)據(jù)進行初始檢測,在此基礎上利用對支持向量機(TWSVM)進行檢測結果的優(yōu)化處理。為了驗證策略的有效性,設計性能對比實驗,實驗結果表明,相較于DCA、支持向量機(SVM)、反向傳播(BP)神經(jīng)網(wǎng)絡,DCTWSVM策略的檢測精度提高了2.02%、2.30%、5.44%,誤報率分別降低了0.26%、0.46%、0.90%,訓練速度相較于SVM提高了兩倍且只需耗費極少的訓練時間,可以更好地適用于大規(guī)模數(shù)據(jù)下的實時入侵檢測環(huán)境。
關鍵詞:樹突細胞算法,對支持向量機,入侵檢測,大數(shù)據(jù)
0引言
入侵檢測系統(tǒng)(Intrusion Detection System, IDS)是一種集成了入侵行為過程的軟件系統(tǒng),并常與入侵防御系統(tǒng)(Intrusion Prevention System, IPS)并稱為入侵檢測防御系統(tǒng)(Intrusion Detection Prevention System, IDPS)。在網(wǎng)絡環(huán)境中,入侵檢測的延遲報警并不具備較高的實用性,但由于當前檢測技術大都依賴于網(wǎng)絡環(huán)境下產(chǎn)生的歷史審計數(shù)據(jù)(Audit Data)進行分析,所以實時入侵檢測的實現(xiàn)、提高檢測正確率與效率也是當下重要的研究問題。
生物免疫系統(tǒng)(Immune System, IS)是生物體內(nèi)保護生物免受病原體危害及保障生物穩(wěn)態(tài)性的一種免疫機制[3],該系統(tǒng)擁有動態(tài)性和自適應性等諸多特性。當病原體侵入人體后,將會引發(fā)免疫細胞的一系列活動來保障人體穩(wěn)態(tài)性[4]。近些年通過對危險理論(Danger Theory, DT)的深入研究[5-6],業(yè)界開始針對樹突細胞(Dendritic Cell, DC)生物學來開拓免疫機制的新思路以應對日益嚴峻的安全形勢[7]。由此衍生的樹突細胞算法具備多項優(yōu)勢,如良好的實時性、較小的資源需求、較少的訓練樣本、精簡的訓練過程和優(yōu)質(zhì)的檢測精度等。
將機器學習與數(shù)據(jù)挖掘技術應用在入侵檢測領域已經(jīng)取得了較好的成績[8-10]。支持向量機(Support Vector Machine, SVM)技術作為其中的一項主流技術也取得了較多的研究成果[11-13]。SVM是根據(jù)Vapnik的統(tǒng)計學習理論產(chǎn)生,從二分類的研究衍生到多分類問題的研究,究其原理主要是通過求解空間超平面使分類距離最大化來解決分類最優(yōu)解[14]。傳統(tǒng)的SVM存在訓練算法復雜度較高、計算時間較長等問題,因此應用SVM處理入侵檢測問題時,需要對其進行算法層次的改進或?qū)ふ腋鼮楹唵斡行У暮撕瘮?shù)來簡化運算,例如采用對支持向量機算法(TWin Support Vector Machine, TWSVM)來提升檢測速度;另外也可以將SVM與其他算法進行結合優(yōu)化,例如Shon利用遺傳算法(Genetic Algorithm, GA)來優(yōu)化傳統(tǒng)算法[12]。
本文提出了一種基于樹突細胞算法和對支持向量機(Dendritic Cell TWin Support Vector Machine, DCTWSVM)入侵檢測策略。該策略有效提高入侵檢測的檢測準確率,降低誤報率,并且在檢測數(shù)據(jù)量大幅提升的情況下可以有效滿足檢測的實時性要求。
1樹突細胞入侵檢測模型
基于危險理論而衍生的樹突細胞算法(Dendritic Cell Algorithm, DCA)在生物免疫學中突破了傳統(tǒng)免疫理論中的“自我非我”(Selfnonself)免疫思路,轉而采取針對危險信號(Danger Signal)的識別應答,這使得算法的適用條件比較廣泛,如實時計算或半實時計算下的異步處理環(huán)境。
DC細胞對于存在于生物組織中的信息十分敏感,入侵檢測的過程中,DC細胞的主要存在形式有3種:未成熟DC(immature DC,iDC)、半成熟DC(semimature DC,sDC)以及成熟DC(mature DC,mDC),通過界定DC的3種狀態(tài)可以定義當前環(huán)境是否處于危險或者安全狀態(tài)。DC細胞組成結構初始化信息包括:生命周期(lifespan)、初始signal值、信號轉換權值矩陣(W)。DC進行狀態(tài)轉換的標準主要依據(jù)協(xié)同刺激信號(CoStimulatory Molecule,CSM)。算法的處理流程如圖1所示。在圖1中,輸入的信息包括抗原(Antigen)與信號(Signal),信號即安全信號(Safe Signal)與Danger Signal;除此之外還包括病原體相關分子模型(Pathogenic Associate Molecular Pattern,PAMP)以及炎癥因子(Inflammatory Cytokines,IC)。在對輸入數(shù)據(jù)進行處理的過程中,作為專職抗原提呈細胞(Antigen Presenting Cell,APC)的樹突狀細胞負責采集Antigen產(chǎn)生的信息進行識別、分析、處理并提呈給相關免疫細胞,利用免疫細胞進行病原體入侵識別。
在iDC采集Antigen和Signal的過程中,輸出信號的計算主要通過下述公式確定:
O[csm,semi,mat]=WCW
WC=WPCP+WSCS+(WDCD)(1+IC)
W=WP+WS+WD (1)
其中,O[csm,semi,mat]分別代表了CSM、sDC、mDC的輸出值,WP是輸入PAMP的權值,WS是輸入安全信號的權值,WD是輸入危險信號的權值,IC是炎癥因子的值;CP是PAMP的輸入濃度,CS是安全信號的輸入濃度,CD是危險信號的輸入濃度。相關的權值參考表1。假設狀態(tài)轉移參考閾值為Th,則當O[csm,semi,mat]大于Th時,發(fā)生狀態(tài)轉移、將信息輸出,反之重新開始采集輸入信息。 表格(有表名)
表1基于DCA的權值表
輸入信號
信號權重
csmsemimat
WP202
WS101
WD22-2
DCA在異常檢測中一項重要的判斷標準是上下文成熟度抗原值(Mature Context Antigen Value,MCAV)。MCAV代表了在某種環(huán)境下完全成熟的抗原數(shù)量M與提呈的抗原總量Ag的比值,若MCAV的值接近于1,則抗原極有可能是異常的,因此MCAV用于評估輸入抗原的異常度。通過界定不同的參考閾值,可以有效提升樹突細胞算法的整體檢測能力。
MCAV=M/Ag(2
MCAVavg=∑ iMi∑ iAgi1+∑ iAgi2(3
式(2)是MCAV求解的標準形式。式(3)是基于式(2)的變形形式,其意義是:由于采集的抗原上下文組合的多樣性,若抗原數(shù)據(jù)在正常狀態(tài)下收集到抗原上下文,則表示DC細胞處于半成熟狀態(tài)(Agi1);若在異常情況下的收集到的抗原上下文,則表示DC細胞處于成熟狀態(tài)(Agi2)。MCAVavg代表了該組序列抗原值。
根據(jù)文獻[7]的DCA形式化描述,樹突細胞入侵檢測基本的步驟分為3個階段:初始化(第1)行~3)行)、入侵檢測(第4)行~18)行)、結果分析(第19)行~23)行)。初始化過程需要設定DC細胞數(shù)量Cell(num)、算法迭代數(shù)Iteration(max)、以及狀態(tài)轉移閾值Th,經(jīng)過數(shù)據(jù)處理、信號轉換等過程,最后完成信息提呈,偽代碼第13)行中的terminal condition依據(jù)式(1)中O[csm,semi,mat]的變化而定。
DCA的過程如下所示:
程序前
Input: time series data (antigen and signal)
Output: antigen type and MCAV
0
Set Cell(num), Iteration(max), Th
1)
for each DC do
2)
initiate DC
3)
endfor
4)
for Iteration(max) do
5)
if antigen then
6)
antigen profile update
7)
endif
8)
if signal then
9)
signal transformation
10)
for iDC do
11)
cell lifespan update
12)
signal profile update
13)
if termination condition then
14)
output record
15)
endif
16)
endfor
17)
endif
18)
endfor
19)
for output record do
20)
for antigen type do
21)
calculate MCAV
22)
endfor
23)
endfor
程序后
2基于對支持向量機的入侵檢測優(yōu)化
2.1對支持向量機與入侵檢測
傳統(tǒng)的SVM算法是監(jiān)督式(supervised)的學習方法[11],在解決非線性分類及高維模式識別等問題中表現(xiàn)出了特有的優(yōu)勢,在文獻[11-13]中的研究表明將SVM方法應用于入侵檢測場景可以收到相對滿意的效果。由于支持向量機在訓練算法復雜度上并不存在較大的優(yōu)勢,且算法計算時間較長,所以若直接利用其來進行入侵檢測的離線分析尚且滿足要求,但對于實時性等較高要求,該方法并不完全滿足。關于TWSVM與入侵檢測,在文獻[15]中的研究表明對于傳統(tǒng)SVM,TWSVM在訓練時間上的優(yōu)勢可以有效平衡入侵檢測的輸出并提高檢測率,但是對于實時性則并未作太多分析。
2.2基于對支持向量機的入侵檢測優(yōu)化
DCA在很大程度上彌補了TWSVM在實時性等方面的劣勢,但是在輸出結果時存在較高的誤報率(False Positive Rate,F(xiàn)PR) [7]。經(jīng)過分析可得,產(chǎn)生上述結果的原因主要有以下3點:1)DCA對于輸入數(shù)據(jù)的序列有一定的依賴性;2)DCA對于抗原的危險性需要根據(jù)當前設定的參考閾值判斷,且該閾值對于判斷結果有直接影響;3)DCA對于判斷識別率具有一定的隨機性[7]。對于1)本文暫時不予深究,對于2)的影響將通過實驗來進行參數(shù)優(yōu)化,對于3)引起的影響將通過TWSVM來對DCA的檢測結果作進一步優(yōu)化,從而提高檢測結果的準確率,降低誤報率。
2.2.1對支持向量機
假設在TWSVM中需要的兩類超平面分別用Α和B表示,則TWSVM的求解問題可以轉化為兩個非平行超平面(nonparallel hyperplane)問題的求解過程:
xTω(1)+λ(1)=0 xΤω(2)+λ(2)=0 (4
式(4)代表了正、負兩類超平面的最終求解方程。這里,x是一個數(shù)據(jù)集合,ω∈Rn與λ∈R分別是兩個超平面方程的系數(shù);ω(1)與λ(1)屬于正類的法向量和偏移量,ω(2)與λ(2)屬于負類的法向量和偏移量。
TMSVM1:
minω(1),λ(1),q12(Aω(1)+e1λ(1))Τ(Aω(1)+e1λ(1))+c1eT2q
s.t. -(Bω(1)+e2λ(1))+q≥e2; q≥0(5
TMSVM2:
minω(2),λ(2),q12(Bω(2)+e2λ(2))T(Bω(2)+e2λ(2))+c2eT1q
s.t. -(Aω(2)+e1λ(2))+q≥e1; q≥0(6
式(5)的TMSVM1代表求解一個超平面使其擬合正類樣本A而遠離負類樣本B;式(6)的TMSVM2代表求解一個超平面使其擬合負類樣本B而遠離正類樣本A。q為松弛因子且其元素均為1,c1、c2>0為正負兩類樣本的懲罰因子,e1、e2>0且其元素均為1。對于測試樣本x,計算并比較它到兩個超平面的距離,即可判斷該樣本所屬類別。
規(guī)定如下定義:
H=[Ae1]
G=[Be2]
u=[ω(1)λ(1)]
v=[ω(2)λ(2)] (7
根據(jù)式(7)中的定義,可以得到如下方程:
HTHu+GΤa=0
HTHv+GΤb=0 (8
在式(8)中,a和b作為拉格朗日乘子向量依據(jù)Wolfe對偶問題(DTWSVM)[16]的求解方式如下:
DTWSVM1:
minaeΤ2a-12aΤG(HΤH)-1GΤa
s.t. 0≤a≤c1e2(9
DTWSVM2:
minbeΤ1b-12bΤH(GΤG)-1HΤb
s.t. 0≤b≤c2e1(10
從式(9)和式(10)中解出a和b的值,接著根據(jù)式(8)可以求出u和v,最后利用式(1)和式(7)確定最終的超平面解。在給定樣本x∈Rn后,可以根據(jù)式(11)來判斷x的最終分類:
Classx=arg mink=1,2(ω(k)・x)+λ(k)(11)
其中|・|運算表示樣本x到超平面的垂直距離。
傳統(tǒng)的SVM算法訓練問題本質(zhì)上就是求解一個二次規(guī)劃(Quadratic Programming,QP)問題,且時間復雜度在給定樣本數(shù)為m后的上限為O(m3)[17]。比較而言,TWSVM算法將原本求解的大問題轉成兩個二次規(guī)劃問題,縮小了每個子問題的規(guī)模。若每類樣本規(guī)模數(shù)量為m/2,則近似的時間復雜度為O(m3/4),相較于傳統(tǒng)SVM算法展現(xiàn)了絕對的時間優(yōu)勢。
2.2.2基于對支持向量機的入侵檢測優(yōu)化算法
鑒于TWSVM的分類精度高和訓練速度快的優(yōu)勢,本文利用TWSVM對DCA的檢測結果進行更深層次的優(yōu)化處理,同時針對懲罰因子c1、c2通過實驗進行參數(shù)優(yōu)化,進一步提高算法性能。
檢測優(yōu)化的TWSVM描述如下(假設訓練集樣本中的種類為n):
步驟1設置c1、c2的初始值。
步驟2訓練算法。訓練分類器TWSVM1, 得到兩個超平面Π1和Θ1; 第i個分類器TWSVMi將第i類訓練樣本的類別標記為+1,而降其余所有訓練樣本的類別標記為-1,得到的超平面是Πi和Θi;直至構建第n-1個分類器TWSVMn-1。
步驟3測試。將樹突細胞檢測結果樣本經(jīng)過所有TWSVM分類器進行分類,計算樣本x到TWSVMi的兩個超平面Πi和Θi的距離為d1和d2,若d1>d2,則樣本x被判定為第i類,繼續(xù)遍歷直到樣本中的所有數(shù)據(jù)都被判定類別后停止。
3實驗與分析
本文采用的是KDD Cup (1999)的10%數(shù)據(jù)子集,KDD數(shù)據(jù)集是目前應用于計算機網(wǎng)絡入侵檢測研究中普遍采用的測試數(shù)據(jù)集。該數(shù)據(jù)集包含訓練集數(shù)據(jù)4898431條和測試集數(shù)據(jù)311029條,除去正常數(shù)據(jù)之外,所有的攻擊數(shù)據(jù)包括以下4類:拒絕服務(Denial of Service,DoS)、權限提升(User to Root,U2R)、遠程權限獲取(Remote to Local,R2L),以及端口漏洞掃描(Probe)。在訓練集數(shù)據(jù)中,只有19.85%(約972781條數(shù)據(jù))是正常網(wǎng)絡流量數(shù)據(jù),其他均為攻擊數(shù)據(jù);在測試集數(shù)據(jù)中,有19.48%(約60593條數(shù)據(jù))是正常的網(wǎng)絡流量數(shù)據(jù)而其他的均為攻擊數(shù)據(jù)。在KDD Cup數(shù)據(jù)集中的每一條記錄都可以用41種定量且定性的特征進行約束。本文從訓練集中選出代表性數(shù)據(jù)86990條,從測試集中選出數(shù)據(jù)43130條,關于數(shù)據(jù)描述詳見表2。同時作為算法對比測試,本文采取單獨使用DCA、SVM、反向傳播(Back Propagation,BP)神經(jīng)網(wǎng)絡,與本文使用的DCTWSVM一同進行數(shù)據(jù)的訓練和測試。實驗參數(shù)如下:Cell(num)=200,Iteration(max)=50,Th=0.65,c1=1000,c2=1000。實驗環(huán)境是Intel Xeon CPU 2.60GHz,內(nèi)存是32GB,所有策略算法均采用 C++實現(xiàn)。
表格(有表名)
由表3和表4中的平均水平來看,與DCA、SVM、BP神經(jīng)網(wǎng)絡相比,本文的DCTWSVM在檢測精度方面分別提高了2.02%、2.30%、5.44%,在誤報率方面分別降低了0.26%、0.46%、0.90%。
綜合分析,DCTWSVM展現(xiàn)了較高的檢測精度,在處理DoS、Probe時相比其他策略均有小幅提高,在處理R2L與U2R的檢測精度相比SVM有一定提升、比DCA、BP神經(jīng)網(wǎng)絡有較大提升;與此同時DCTWSVM取得了較低的誤報率,其中U2R和R2L的誤報率相比DCA有十分明顯的降低。 表格(有表名)
從圖2中看到,DCA的訓練時間很少、這主要與該算法需要較少的訓練樣本有關[7]。DCTWSVM的訓練時間呈現(xiàn)了比SVM、BP神經(jīng)網(wǎng)絡算法更大的優(yōu)勢,尤其當訓練數(shù)據(jù)規(guī)模較大時,訓練速度幾乎為SVM的兩倍。
綜合誤報率、檢測精度和訓練時間可以得出:雖然DCA根據(jù)其基本原理可以在訓練速度上占優(yōu)[7],但是本文提出的DCTWSVM可以在此基礎之上進一步提高入侵檢測的檢測精度并有效降低誤報率。在實際運用中,若對于實時性要求較高且用于檢測DoS以及Probe攻擊時,可以單獨運用DCA;但是當數(shù)據(jù)規(guī)模較大且檢測種類較多時,使用DCTWSVM可以在犧牲較少的訓練時間基礎上進一步提高檢測精度,降低整體誤報率,并最終提升檢測的整體實時性,這使得DCTWSVM在復雜的應用場景中具備較高的參考價值。
4結語
本文鑒于DCA在處理入侵檢測過程中具備的較高實時性的優(yōu)勢,結合TWSVM多類分類思想,提出了一種基于DCTWSVM的入侵檢測策略。將DCA在入侵檢測后可能存在的誤報率較高的檢測結果利用TWSVM訓練效率高、分類精度高的特點進行結果優(yōu)化。實驗表明,DCTWSVM不僅保持了較高的檢測精確度、較低的誤報率,且在訓練速度上相比一些傳統(tǒng)算法有了顯著提高,另外在實時性檢測能力上有了明顯提升,具有一定的實用價值。由于本文僅在KDD Cup數(shù)據(jù)集上進行了對比實驗,在今后的工作中,要加強對于網(wǎng)絡動態(tài)環(huán)境下產(chǎn)生的數(shù)據(jù)進行研究;加強DCA的優(yōu)化,降低其檢測的誤報率;加強對TWSVM的優(yōu)化,進一步減少其訓練時間;另外考慮采取更為高效的分類算法與DCA進行組合解決復雜網(wǎng)絡環(huán)境下的入侵檢測問題。
參考文獻:
[1] LIAO H, LIN C, LIN Y, et al. Intrusion detection system: a comprehensive review[J] . Journal of Network and Computer Applications, 2013, 36(1): 16-24.
[2] KREUTZ D, RAMOS F M V, ESTEVES VERISSIMO P, et al. Softwaredefined networking: a comprehensive survey[J]. Proceedings of the IEEE, 2015, 103(1): 14-76.
[3] AICKELIN U, DIPANKAR D. FENG G. Artificial immune systems[M]. Berlin: Springer, 2014: 187-211.
[4] HUA Y, LI T, HU X, et al. A survey of artificial immune system based intrusion detection[J]. The Scientific World Journal, 2014, 2014(3): 156790.
[5] FANG X, WANG L, KANG J, et al. On dendritic cell algorithm and its theoretical investigation[J]. Computer Science, 2015, 42(2): 131-133.(方賢進, 王麗, 康佳, 等. 樹突細胞算法及其理論研究[J]. 計算機科學, 2015, 42(2): 131-133.)
科學論文投稿期刊推薦《電子工藝技術》是我國電子行業(yè)生產(chǎn)技術綜合性科技期刊,該刊集眾多專業(yè)為一體,突出工藝特色,凡是與電子產(chǎn)品生產(chǎn)過程相關的技術,都是該刊的報道范圍。本刊是信息產(chǎn)業(yè)部優(yōu)秀科技期刊,山西省一級期刊,全國電子行業(yè)核心期刊。
文章標題:科學論文投稿基于樹突細胞算法與對支持向量機的入侵檢測
轉載請注明來自:http://www.56st48f.cn/fblw/dianxin/yingyong/29008.html
攝影藝術領域AHCI期刊推薦《Phot...關注:105
Nature旗下多學科子刊Nature Com...關注:152
中小學教師值得了解,這些教育學...關注:47
2025年寫管理學論文可以用的19個...關注:192
測繪領域科技核心期刊選擇 輕松拿...關注:64
及時開論文檢索證明很重要關注:52
中國水產(chǎn)科學期刊是核心期刊嗎關注:54
國際出書需要了解的問題解答關注:58
合著出書能否評職稱?關注:48
電信學有哪些可投稿的SCI期刊,值...關注:66
通信工程行業(yè)論文選題關注:73
SCIE、ESCI、SSCI和AHCI期刊目錄...關注:120
評職稱發(fā)論文好還是出書好關注:68
復印報刊資料重要轉載來源期刊(...關注:51
copyright © www.56st48f.cn, All Rights Reserved
搜論文知識網(wǎng) 冀ICP備15021333號-3