摘 要:針對現(xiàn)有三支決策模型的研究對象多為單一性數(shù)據(jù)的決策系統(tǒng),對于混合數(shù)據(jù)邊界域樣本處理的研究相對較少,本文面向混合數(shù)據(jù)提出了基于核屬性的代價敏感三支決策邊界域分類方法。該方法基于正域約簡計算混合鄰域決策系統(tǒng)的核屬性集,在此基礎(chǔ)上計算混合鄰域類,并利用三支決策規(guī)則分別將對象劃分到各決策類的正域、邊界域和負(fù)域;提出了一種基于代價敏感學(xué)習(xí)的三支決策邊界域分類方法,并構(gòu)造了誤分類代價的計算方法,以此劃分邊界域中的對象。通過對 UCI 上的 10 個數(shù)據(jù)集進(jìn)行實驗對比與分析,進(jìn)一步驗證了本文方法為處理邊界域樣本提供了一種可行有效的方法。
周陽陽; 錢文彬; 王映龍; 彭莉莎; 曾武序, 智能系統(tǒng)學(xué)報 發(fā)表時間:2021-10-13
關(guān)鍵詞:三支決策;粒計算;代價敏感;混合數(shù)據(jù);正域約簡;邊界域樣本處理;粗糙集; 核屬性
1三支決策是加拿大學(xué)者 Yao.Y.Y 提出的一種 “化繁為簡”決策理論[1-2],它從粒計算視角將論域劃分為三個互不相交的論域子空間,并對其分別采取不同的應(yīng)對策略,這種分而治之的思想,可有效提高決策準(zhǔn)確度,降低誤分類代價。三支決策理論模擬人類認(rèn)知、學(xué)習(xí)和決策的過程,可處理決策過程中出現(xiàn)的不確定性問題。近年來,三支決策理論引起了許多研究者的關(guān)注,已成為了粒計算和知識發(fā)現(xiàn)領(lǐng)域中的一個重要研究方向。目前,三支決策在眾多應(yīng)用領(lǐng)域中得到廣泛的應(yīng)用,如人臉識別[3]、推薦系統(tǒng)[4-5]、決策系統(tǒng)[6]和郵件過濾[7]等;為了處理復(fù)雜的應(yīng)用場景,提出了不同的計算模型,如序貫三支決策[3,8] 、優(yōu)化三支決策[9]、前景三支決策[10]、 三支模糊集[11]和三支約簡[12]等。
在實際應(yīng)用中,代價是影響三支決策劃分的重要因素之一。代價敏感學(xué)習(xí)能夠有效緩解分類過程中的數(shù)據(jù)不平衡問題,其主要作用是處理決策過程和結(jié)果產(chǎn)生的各類代價問題。代價敏感學(xué)習(xí)主要研究兩種代價:誤分類代價(結(jié)果代價)和測試代價,兩者互相關(guān)聯(lián),呈負(fù)相關(guān)。如在醫(yī)療診斷中,患者想要獲得更高的診斷準(zhǔn)確率(即決策代價越低),就需要做更多的檢查(即測試代價越高)。由于代價是數(shù)據(jù)的內(nèi)在特征,將其與知識發(fā)現(xiàn)結(jié)合會使得問題更具有普適性,目前,代價敏感學(xué)習(xí)已經(jīng)應(yīng)用到現(xiàn)實生活中的許多領(lǐng)域,如:人臉識別[13]、價格預(yù)測[14]和客戶信用評價[15]等。
因此,基于代價敏感的三支決策算法與模型引起了許多學(xué)者的關(guān)注和研究,已取得重要的研究成果。Fang 等人[8]將信息粒度納入決策分析過程,同時考慮決策過程和決策結(jié)果的代價,分別設(shè)計了兩種不同的算法以最小化決策過程和決策結(jié)果代價。 Yang 等人[16]提出了一種三支決策和可分辨矩陣的框架,在此框架下分別設(shè)計了基于刪除和增加的代價敏感近似屬性約簡算法。Jia 等人[17]構(gòu)造了一種可以直接應(yīng)用于傳統(tǒng)的代價敏感學(xué)習(xí)問題的三支決策模型,在此基礎(chǔ)上,提出基于多類三支決策模型的多階段代價敏感學(xué)習(xí)方法。Li 等人[18]為從輸入圖像中順序提取分層粒度結(jié)構(gòu),提出了一種基于 DNN 的順序粒度特征提取方法,在此基礎(chǔ)上,提出一種代價敏感的序貫三支決策模型。Fang 等[19]考慮了用戶需求,提出一種基于模糊粗糙集的序貫三支決策模型的優(yōu)化機(jī)制,用來實現(xiàn)對代價敏感的最優(yōu)粒度選擇。Ma 等人[20]定義了三支特定類的最低代價約簡,分別設(shè)計了基于添加-刪除策略和刪除策略來構(gòu)建特定類的最小代價約簡算法。以上算法與模型能夠最小化結(jié)果代價或過程代價。而在許多應(yīng)用領(lǐng)域中往往需要從代價敏感視角來分析三支決策邊界域樣本,目前三支決策的研究對象多為單一性數(shù)據(jù)的決策系統(tǒng),對于混合數(shù)據(jù)邊界域樣本處理的研究相對較少。
為此,本文提出了一種面向混合數(shù)據(jù)的代價敏感三支決策邊界域分類方法。首先,基于正域約簡,提出了面向混合數(shù)據(jù)的屬性約簡模型;然后,提出了一種基于代價敏感的三支決策邊界域樣本處理方法,在貝葉斯最小風(fēng)險的基礎(chǔ)上構(gòu)造誤分類代價公式,劃分邊界域中的對象。最后,對 UCI 上的 10 個數(shù)據(jù)集進(jìn)行實驗,結(jié)果表明該方法能夠降低誤分類代價,而且能較準(zhǔn)確的劃分邊界域中的對象;這為三支決策的邊界域樣本處理提供了一種可借鑒的方法。
1 基本知識
1.1 鄰域粗糙集
在粗糙集理論[21]中,給定一個四元組決策系統(tǒng): DS U At C D V a At I a At ? ? ? ? ? ? , , | , | ? a a ? ? ??,其中 U x x x ?? 1 2 , ,..., n?表示有限非空的對象全集,稱為論域或者對象空間; At 表示有限非空的屬性全集,由條件屬性和決策屬性共同組成; C a a a ? ? 1 2 , ,... n?表示有限非空的條件屬性全集, D 表示決策屬性; Va 表示 a C ?的屬性值集, | a I U At V ? ?是一個信息函數(shù),能給每個對象的每個屬性賦值,即 ( ) a a I x V ? 。
定義 1 [22] 給定混合鄰域決策系統(tǒng) DN U ?? , , , , , ? D C F F D V I a a ? ?,距離度量函數(shù)? ? N U U : ,給定屬性子集 B C ?和鄰域參數(shù)?,則對象 x 和 y 基于 B 的鄰域關(guān)系為: NR B x y U U N x y ( ) ( , ) | ( , ) ? B ??? ? ? ? ? ?對? ?x U , x 的鄰域粒度可表示為:? ? B B ( ) | , , ( , ) x y x y U N x y ? ? ? ? ? ?其中, D F 為離散屬性集合, C F 為連續(xù)屬性集合,?是鄰域參數(shù)。
1.2 三支決策粗糙集
三支決策粗糙集[23]通過 2 個狀態(tài)集和 3 個動作集來描述其決策過程。其中,狀態(tài)集 S X X ? ? ? , ?分別表示對象屬于概念 X 和不屬于概念 X ,動作集 A a a a ? ? P B N , , ?表示對于不同狀態(tài),分別采取接受、延遲和拒絕三種不同的動作。由于采取不同動作會產(chǎn)生不同的損失,記 , , ??? PP BP NP 表示當(dāng) x X ?時,分別采取動作 , P B a a 和 N a 產(chǎn)生的風(fēng)險損失值;同樣地,記 , , ??? PN BN NN 表示當(dāng) x X ??時,分別采取動作 , P B a a 和 N a 產(chǎn)生的風(fēng)險損失值;損失之間的關(guān)系滿足:??? PP BP NP ? ? , ? ? ? NN BN PN ? ?。在實際應(yīng)用中,這些損失值通過專家的經(jīng)驗獲取。
定義 2 [1] 在決策系統(tǒng) DS U C D V I ? ? ? , , , a a ?中,令 X 為論域 U 基于決策屬性 D 的劃分,?和?為三支決策的閾值, P X x ( |[ ]) 表示對象 x 的條件概率,對于? ?x U ,根據(jù)貝葉斯決策過程,計算得到最小成本準(zhǔn)則的三支決策規(guī)則: POS X x U P X x ( ) | ( ) 1 ? ? ? ? ? ? ? ? ? BND X x U P X x ( ) | ( ) ? ? ? ? ? ? ? ? ? ? NEG X x U P X x ( ) |0 ( ) ? ? ? ? ? ? ? ??其中: ? ?? ?? ? ( | ) X x P X x x ?? , . 表示對象的個數(shù);?? ? ? ???? ? ? ( ) ( ) ( ) BN NN BN NN NP BP ? ??? ? ? ???? ? ?其中,正域 POS X( ) 、負(fù)域 NEG X( ) 和邊界域 BND X( ) 分別對應(yīng)三支決策規(guī)則中的接受、拒絕和不 承 諾 規(guī) 則 , 且 滿 足 : POS X BND X ( ) ( ) ? ? NEG X X ( ) ?;僅當(dāng) X U?時, POS X BND X ( ) ( ) ?? ? NEG X U ( ) 。
1.3 代價敏感學(xué)習(xí)
代價敏感學(xué)習(xí)主要研究誤分類代價和測試代價,由于本文中考慮了其誤分類代價,誤分類代價表示對對象錯誤劃分后的一種懲罰。用 Ck k ?表示誤分類代價矩陣,其中 k 表示 k 分類問題。為方便理解,以二分類代價矩陣 11 12 2 2 21 22 ? = ? ?? ? ? ? c c C c c 為例;其中 11 c 表示將類別為 1 的對象劃分到類別 1 種,因此 11 c 的值為 0,同理 22 c 的值也為 0; 12 c 表示將類別為 1 的對象劃分到類別 2 中,此時屬于誤分類,在劃分中需付出懲罰代價,因此 12 c ? 0 ,同理 21 c ? 0。
2 基于正域約簡的代價敏感三支決策邊界域分類方法
2.1 面向混合鄰域決策系統(tǒng)的正域約簡
由于基于三支決策的粒計算方法大多是處理連續(xù)型數(shù)據(jù)或離散型數(shù)據(jù)等單一型數(shù)據(jù),但是在現(xiàn)實生活的應(yīng)用領(lǐng)域中數(shù)據(jù)類型通常是既含有連續(xù)型數(shù)據(jù)又含有離散型數(shù)據(jù)的混合數(shù)據(jù),為此需對混合數(shù)據(jù)的三支決策模型展開研究。
定 義 3 給定混合鄰域決策系統(tǒng) DN U ?? , , , , , ? D C F F D V I a a ? ? , ( ) V x a 表示對象 x 在屬性 a 上的屬性值:
對于 , , D ? ? ? ? x y U a F ,則 x 和 y 基于 D F 的距離為: 0, ( ) ( ) ( , ) 1, ( ) ( ) D a a F a a V x V y N x y V x V y ? ?? ? ?? ?對于 , , C ? ? ? ? x y U a F ,則 x 和 y 基于 C F 的距離為: 1 1 C ( , ) | ( ) ( )| m p p F a a k N x y V x V y ?? ? ? ? ? ? ? ? ? ?其中,當(dāng) p ?1 時, C ( , ) F ?N x y 為曼哈頓距離;當(dāng) p ? 2 時, C ( , ) F ?N x y 為歐氏距離;當(dāng) p ??時, C ( , ) F ?N x y 為切比雪夫距離。
定 義 4 給 定 混 合 鄰 域 決 策 系 統(tǒng) DN U ?? , , , , , ? D C F F D V I ? a a ? ,令 Di 為論域U 基于決策屬性D 的劃分,則混合鄰域決策系統(tǒng)的上下近似表示為: AN D x U x D ( ) | ( ) ? ? ? ? ? C i? AN D x U x D ( ) | ( ) ? ? ? ? ? ? ? C i ?通過上下近似集,可知特征子集 B 上的正域如下: POS D AN D x U x D C C i ( ) ( ) | ( ) ? ? ? ? ? ? ?
定 義 5 給定混合鄰域決策系統(tǒng) DN U ?? , , , , , ? D C F F D V I ? a a ?,令屬性 i a C ?,則混合鄰域決策系統(tǒng)中基于三支決策的核屬性集定義為: CORE C a POS D POS D ( ) | 0 ? ? ? ? ? ? ? ? ? ?? ? i C C a ?? i? ?
下面以表 1 為例,給出一個混合鄰域決策系統(tǒng),其中, U x x x ? ? 1 2 10 , ,..., ?為對象集, C a a a ? ? 1 2 6 , ,..., ?為條件屬性集, 決策類 U D D D ? ? 1 2 , ?,分別為 D x x x x x x 1 1 3 5 6 7 9 ?? , , , , , ? , D x x x x 2 2 4 8 10 ?? , , , ?。
根據(jù)定義 5 可計算出混合鄰域決策系統(tǒng)的核屬性集,具體的計算過程如下:首先,根據(jù)定義 3,利用 p ? 2 時的歐式距離計算全體對象的混合鄰域粒度,再根據(jù)定義 5 計算出? 1 4 5 6 ( ) , , , , POS D x x x x C ? x7 ?,同理可計算出? ? ? ? 1 1 4 5 6 7 ( ) , , , , POS D x x x x x C a ?? , 因 為? 1? ( ) ( ) POS D POS D C C a ?? , 所以屬性 1 a ? CORE C( ) ,同理可求出?a a a a CORE C 2 3 5 6 , , , ( ) ?? ,只有屬性 4 a CORE C ? ( ) 。由此可知核屬性集為 CORE C a ( ) ?? 4?。下面將在此基礎(chǔ)上,提出了代價敏感下的三支決策邊界域分類方法。
2.2 基于核屬性集的代價敏感三支決策邊界域分類方法
定 義 6 給 定 混 合 鄰 域 決 策 系 統(tǒng) DN U ?? , , , , , ? D C F F D V I ? a a ? ,設(shè)屬性子集 B C ? ,? 和 ? 為三支決策的閾值, Di 表示不同的決策屬性,則不同屬性子集下的三支決策規(guī)則定義為: POS D x U P D x B i i B ( ) | ( ( )) 1 ? ? ? ? ? ? ? ? BND D x U P D x B i i B ( ) | ( ( )) ? ? ? ? ? ? ? ?? NEG D x U P D x B i i B ( ) |0 ( ( )) ? ? ? ? ? ? ??其中, ( ) ( | ( ))= ( ) i B i B B D x P D x x ???? 。
以表 1 為例,可給出混合鄰域決策系統(tǒng)代價矩陣,如表 2 所示。結(jié)合定義 2 和表 2,可求出三支決策的閾值? ? = 7 9, 1 3 ? 。
令 B CORE C a ? ? ( ) ? 4? ,根據(jù)定義 3 可計算出核屬性子集 B 下的對象之間的鄰域粒度;再根據(jù)定義 6 計算出核屬性集下決策類 D1 的的正域、負(fù)域和邊界域,具體的計算過程如下:由定義 3 可計算出核屬性集 B 下 的 1 x 的鄰域粒度 1 ( ) B ? x ??x x x x x x x x 1 2 5 6 7 8 9 10 , , , , , , , ? ,由此求出 1 x 的條件概率 1 1 ( ( ))=5 8 P D x ? ? B ?,所以 1 1 ( ) B x BND D ?,同理? 2 4 5 6 7 8 9 10 1 , , , , , , , ( ) ? B x x x x x x x x BND D ?,即 1 ( ) BND D B = , , , , , , , , ?x x x x x x x x x 1 2 4 5 6 7 8 9 10?。通過相同的計算可求出: 1 POS DB ( )=?和 NEG D x B ( )=1 3 ? ? 。
定 義 7 在 混 合 鄰 域 決 策 系 統(tǒng) DN U ?? , , , , , ? D C F F D V I ? a a ?中,Di 為論域 U 基于決策屬性 D 的劃分,給定屬性子集 B C ?,為了簡化公式,用 r CP 和 (1 )r ?CP 分 別 代 替 1 ( ( )) P D x i B j ?和 1 (1 ( ( ))) P D x i B j ? ? ,對于? ? x BND D j B i ? ?,樣本簡化后的誤分類代價計算公式如下: ( | ) ( ) ((1 ) ) r PN B i j r r PN NP CP PC D x CP CP ?? ???? ? ? ? (1 ) ( | ) ((1 ) ) ( )
其中, ( | ) PC D x B i 表示在決策類 Di 下將對象 x 劃分到正域產(chǎn)生的誤分類代價,同理, ( | ) NC D x B i 表示在決策類 Di 下將對象 x 劃分到負(fù)域產(chǎn)生的誤分類代價。 ? NP 和? PN 是代價矩陣中的風(fēng)險損失值, ( | ( )) P D x i B ?表示在決策類 Di 下對象 x 的條件概率。性 質(zhì) 1 在 混 合 鄰 域 決 策 系 統(tǒng) DN U ?? , , , , , ? D C F F D V I ? a a ?中, Di 是對決策屬性 D 的劃分,假設(shè)屬性子集 B C ?,對于 ( ) B i ? ?x BND D ,可得出如下推論: (1)如果 | ( | ) PC D x NC D x B i B i ? ? ?,則 x? ( ) NEG D B i ; (2)如果 ( | ) ( | ) PC D x NC D x B i B i ?,則 x? ( ) POS D B i 。以表 1 為例,令 B Core C a ? ? ( ) ? 4?,已知 D1 ??x x x x x x 1 3 5 6 7 9 , , , , , ?和 BND D x x x x x x B ( )= , , , , , , 1 1 2 4 5 6 7 ? x x x 8 9 10 , , ?,根據(jù)定義 7 和性質(zhì) 1 可將邊界域中的對象劃分到正域和負(fù)域,具體的計算過程如下:
對于 1 ( ) B ? ?x BND D ,根據(jù)定義 7 可求出劃分對象 1 x 產(chǎn)生的兩種誤分類代價 1 1 ( | ) 6 11 PC D x B ? , 1 1 ( | ) 5 11 NC D x B ?,因為 1 1 1 1 | ( | ) PC D x NC D x B B ? ? ?,所以 1 1 ( ) B x NEG D ?,同理可得?x x x x x x 2 4 6 8 9 10 , , , , , ? 1 ( ) ? NEG D B 和? 5 7 1 , ( ) ? B x x POS D ?。由此可知,該混合鄰域決策系統(tǒng)的正域為: POS D x x B ( )= , 1 5 7 ? ?,負(fù)域為: NEG D x x x x x x x x B ( )= , , , , , , , 1 1 2 3 4 6 8 9 10 ? ? 。
3 算法描述及復(fù)雜度分析
針對混合鄰域決策系統(tǒng),為了有效劃分其三支決策邊界域中的對象,本文提出了一種面向混合數(shù)據(jù)的代價敏感三支決策邊界域分類方法,該算法主要分為三個部分。首先,針對混合鄰域決策系統(tǒng)中的數(shù)據(jù),通過混合鄰域計算公式計算每個對象的混合鄰域粒度,得到混合鄰域決策表的正域?qū)ο蠹希纱嘶趩l(fā)式策略計算核屬性集。其次,在此基礎(chǔ)上,計算混合鄰域決策表中每個對象的鄰域粒度,從而計算出每個對象屬于不同決策類的條件概率,利用三支決策規(guī)則將對象分別劃分到不同決策類的正域、邊界域和負(fù)域中;最后,針對邊界域中的對象,分別計算其劃分到正域和負(fù)域所產(chǎn)生的誤分類代價,通過比較這兩種代價的大小,將邊界域中的對象劃分到正域或負(fù)域中,為此,算法的流程圖 1 所示。
算法描述如下:
算法:面向混合數(shù)據(jù)的代價敏感三支決策邊界域分類方法
輸入:混合鄰域決策系統(tǒng) DN ,鄰域參數(shù)?和閾值? , ?;
輸出:核屬性集下對不同決策類的正域和負(fù)域;
1)對混合鄰域決策系統(tǒng) DN 做歸一化處理;
2)計算決策類 D U D i ?;
3):計算鄰域粒度 ( ) C ? x ,初始化 ( ) CORE D C =?;
4)對于? ?x U ,若滿足 ( ) C i ? x D ?,則將對象 x 存入到正域 POS D POS D x C C ( ) ( ) ? ?? ?;
5)對于 i ? ? a C ,分別計算去除每個對象之后的特征 子 集 的 正 域 集 合 -? ? ( ) C ai POS D ,若滿足? ? ( ) ( ) i POS D POS D C C a ??,則將屬性 i a 存入到核屬性集 CORE D CORE D a C C i ( ) ( ) ? ?? ?;
6)基于核屬性集 ( ) CORE D C ,計算對象的鄰域粒度? ? ( ) CORE D C ? x ;
7)對于? ?x U ,計算對象 x 屬于決策類 Di 的條件概率? ? ( | ( )) C P D x i CORE D ? : ①若? ? ( | ( )) 1 C ? ? P D x i CORE D ? ?,則將對象 x 劃分到?jīng)Q策類 Di 的正域 ( ) CORE i C POS D ; ②否則,若? ? 0 ( | ( )) C P D x i CORE D ? ? ? ?,則將對象 x 劃分到?jīng)Q策類 Di 的負(fù)域 ( ) CORE i C NEG D ; ③否則將對象 x 劃分到?jīng)Q策類 Di 的邊界域 ( ) CORE i C BND D ;
8)對于 ( ) C b CORE i ? ? x BND D 計算 ( | ) CORE i j C PC D x 和 ( | ) CORE i j C NC D x : ①若滿足 ( | ) ( | ) CORE i j CORE i j C C PC D x NC D x ?,則將對象 j x 劃分到?jīng)Q策類 Di 的負(fù)域 ( ) CORE i C NEG D ; ② 否則將對象 b x 劃分到?jīng)Q策類 Di 的正域 ( ) CORE i C POS D ;
9 ) 輸出劃分結(jié)果正域 ( ) CORE i C POS D ,負(fù)域 ( ) CORE i C NEG D 。//算法結(jié)束。
算法時間復(fù)雜度分析:
算法的 1)的時間復(fù)雜度為 O U C (| || |),2)劃分決策類所需的時間復(fù)雜度為 O U(| |) ;3)在屬性全集下,通過混合鄰域計算公式得出每個對象的混合鄰域粒度,其時間復(fù)雜度為 2 O U C (| | | |) ;4)計算正域?qū)ο蟮臅r間復(fù)雜度為 O U(| |) ;5)計算核屬性集的時間復(fù)雜度為 2 O U C (| | | |) ;6)在核屬性集 CORE 下,計算每個對象的混合鄰域粒度,其時間復(fù)雜度為 2 (| | | ( )|) O U CORE DC i ;7)計算各決策類正域、邊界域和負(fù)域,其時間復(fù)雜度為 O U(| |) ;8)結(jié)合代價敏感劃分邊界域中的對象,其時間復(fù)雜度為 (| |) ? ? CORE i C O BND D 。綜上所述,算法最壞情況下的時間復(fù)雜度是 2 O U C (| | | |) ;由于存儲空間主要用于存放數(shù)據(jù),因此算法的空間復(fù)雜度為 O U C (| || |)。
4 實驗比較與分析
為了驗證本文方法對邊界域?qū)ο髣澐值目尚行院陀行裕瑢嶒瀼?UCI 中選取了 10 個混合數(shù)據(jù)集進(jìn)行實驗測試與分析;選用分類準(zhǔn)確率、權(quán)衡因子、誤分類損失和時間作為評價指標(biāo),對實驗結(jié)果進(jìn)行對比與分析。
4.1 數(shù)據(jù)集與實驗設(shè)置
為了更好地說明所提出算法的普適性,本文根據(jù)數(shù)據(jù)集的來源和規(guī)模兩個方面,從國際公開的機(jī)器學(xué)習(xí) UCI 數(shù)據(jù)庫中選取了 10 個數(shù)據(jù)集進(jìn)行實驗結(jié)果的對比和分析,數(shù)據(jù)集的信息描述如表 3 所示。表中 Speaker Accent 和 Ionosphere 數(shù)據(jù)集中包含連續(xù)型數(shù)據(jù),Phishing Websites 和 Student Evaluation 數(shù)據(jù)集中包含離散型數(shù)據(jù);其余數(shù)據(jù)集均包含連續(xù)型和離散型數(shù)據(jù);這些數(shù)據(jù)集來自欺詐分析、醫(yī)學(xué)診斷、信號處理和教育評價等應(yīng)用領(lǐng)域。同時為了消除量綱的影響,對所有數(shù)據(jù)集中的連續(xù)型數(shù)據(jù)進(jìn)行歸一化處理。本次實驗的運(yùn)行環(huán)境為:Win10, Intel(R)Core(TM), i5-6500 CPU @ 3.20GHz 3.19GHz 和 8GB 內(nèi)存,用 Python 編程語言實現(xiàn)算法設(shè)計。
4.2 評價指標(biāo)
實驗將從準(zhǔn)確率、權(quán)衡因子、誤分類損失和運(yùn)行時間四種度量指標(biāo)[24]對劃分結(jié)果進(jìn)行分析,定義如下:準(zhǔn)確率: ( ) ( ) i i i POS D D Acc POS D ??權(quán)衡因子: 2 Acc Cov F Acc Cov ?? ??誤分類損失: Cos b bp n np t n n ? ? ? ? ? ?式中, ( ) POS Di 和 Di 表示正域和決策類, b n 和 n n 分別表示邊界域、負(fù)域中的對象個數(shù);?bp 和?np 分別表示將屬于某一決策類的對象錯誤劃分到該類別的邊界域和負(fù)域中產(chǎn)生的損失;由于本文算法的輸出只包含正域和負(fù)域,因此 Cov=1 。本實驗的風(fēng)險損失參數(shù)為 =0.3 ?bp , =0.7 ?np 。
4.3 實驗結(jié)果與分析
4.3.1 參數(shù)? PN 和? NP 對劃分結(jié)果的影響
在混合鄰域決策系統(tǒng)中,參數(shù)? PN 和? NP 通過影響閾值對?? ?, ?的大小來影響三支決策的劃分。因此,為了詳細(xì)分析參數(shù)? PN 和? NP 的值對劃分準(zhǔn)確度的影響。本小節(jié)中,為了一般性,從上述數(shù)據(jù)集中選取 6 個作為代表進(jìn)行實驗分析,分別將? PN 和? NP 的值從 3 到 10,且每次步長變化 1 進(jìn)行實驗。實驗結(jié)果如圖 2 的子圖(a)和(b)所示。
在子圖(a)中,當(dāng)? PN 的取值區(qū)間在?4,5?時, Credit Approval 等 5 個數(shù)據(jù)集的準(zhǔn)確率隨代價的增加而下降,且變化趨勢較為平緩;當(dāng)? PN 的取值區(qū)間在?7,8?時,這些數(shù)據(jù)集的準(zhǔn)確率隨代價的增加而下降,且變化趨勢較為顯著。在子圖(b)中,當(dāng)? NP 的取值區(qū)間在?4,5?時,Credit Approval 等 5 個數(shù)據(jù)集的準(zhǔn)確率隨代價的增加而上升,且變化趨勢較為顯著;當(dāng)? NP 的取值在?6,7?區(qū)間時,數(shù)據(jù)集 Speaker Accent 的準(zhǔn)確率隨代價的增加而升高,進(jìn)而達(dá)到平穩(wěn)狀態(tài);當(dāng)? NP 的 取 值 在?7,8?區(qū)間時, Credit Approval 等個 5 數(shù)據(jù)集的準(zhǔn)確率隨代價的增加而升高,且變化趨勢較為平緩;當(dāng)代價? PN 和? NP 的取值在[8,10]這個區(qū)間時,準(zhǔn)確率達(dá)到平穩(wěn)狀態(tài),所有數(shù)據(jù)集的準(zhǔn)確率不再隨著代價的變化而變化。
綜上所述,從整體上看,代價? PN 和? NP 對分類準(zhǔn)確度的影響呈負(fù)相關(guān),數(shù)據(jù)集的準(zhǔn)確率隨著代價? PN 的增加,呈現(xiàn)出整體下降的趨勢;而隨著代價? NP 的增加,整體呈現(xiàn)出上升的趨勢。從局部上看,當(dāng)代價的取值在?4,5?和?7,8?這兩個區(qū)間時,數(shù)據(jù)集的準(zhǔn)確率隨著代價的增加而發(fā)生變化,當(dāng)代價的取值在其他區(qū)間時,數(shù)據(jù)集的準(zhǔn)確率趨于穩(wěn)定的狀態(tài)。由此,在實際的決策過程中,可結(jié)合上述分析的結(jié)論,并根據(jù)數(shù)據(jù)集的分布和代價敏感學(xué)習(xí)構(gòu)造合適的代價矩陣。
4.3.2 本文模型與不同三支決策模型的對比分析
本節(jié)主要分析不同三支決策模型對分類性能的影響,表 4 7 給出了三種粗糙集模型下準(zhǔn)確率 ACC、權(quán)衡因子 F、誤分類損失 Cost 和運(yùn)行時間 Time 的實驗結(jié)果。其中,NCTM (Neighborhood Rough set based Cost-sensitive Three-way Decision Boundary Region Processing Model)是基于鄰域粗糙集[25]設(shè)計考慮了代價敏感的三支決策邊界域處理模型,PCTM (Pawlak Rough set based Cost-sensitive Three-way Decision Boundary Region Processing Model)是基于經(jīng)典粗糙集[22]設(shè)計考慮了代價敏感的三支決策邊界域處理模型,MCTM (MixedNeighborhood Rough set based Cost-sensitive Threeway Decision Boundary Region Processing Model)代表本文基于混合鄰域粗糙集的代價敏感三支決策邊界域處理模型。在 PCTM 模型中對數(shù)據(jù)集進(jìn)行離散化預(yù)處理,在 NCTM 和 MCTM 模型中對數(shù)據(jù)集進(jìn)行了歸一化預(yù)處理,另外,為了使距離處于同一量綱下,在 NCTM 模型中采取平均距離度量,同時 ACC、F、Cost 和 Time 的值均為數(shù)據(jù)集所有決策類的平均值。實驗結(jié)果如表 4 7 所示,其中,符號?表示度量指標(biāo)的值越大越好,符號?表示度量指標(biāo)的值越小越好,加粗字體表示算法在所對應(yīng)的數(shù)據(jù)集上的最優(yōu)值。
如表 4 所示,使用本文模型的分類準(zhǔn)確率高于其他 2 種模型,例如,其在數(shù)據(jù)集 Credit Approval 上的準(zhǔn)確率比 NCTM 和 PCTM 模型分別提高了 4.8%和 2.9%,由于 MCTM 能夠針對不同的數(shù)據(jù)類型采取不同的分類方法,且具有更低的錯誤率,因此其劃分準(zhǔn)確率能整體上高于 NCTM 和 PCTM。此外,在數(shù)據(jù)集 Ionosphere 上,PCTM 模型的優(yōu)勢更加明顯,而在數(shù)據(jù)集 Speaker Accent 上,本文模型和 NCTM 模型的準(zhǔn)確率相同,由此可知,本文模型能有效的提高分類準(zhǔn)確率,且在數(shù)據(jù)集上整體表現(xiàn)良好。
如表 5 所示,對權(quán)衡因子而言,由其度量公式可知,權(quán)衡因子由準(zhǔn)確率和覆蓋率共同決定,由于本文中的三支決策最終轉(zhuǎn)換成二支決策,因此覆蓋率 Cov=1,在本文中權(quán)衡因子 F 很大程度上取決于準(zhǔn)確率 Acc 的值。對比表 4 和表 5 的實驗結(jié)果可知,權(quán)衡因子 F 的值略高于準(zhǔn)確率 Acc 的值,但是整體上的變化趨勢和 Acc 相同。
如表 6 所示,使用本文模型的誤分類損失整體上明顯低于其他 2 種模型,例如,在數(shù)據(jù)集 Student Evaluation 中,本文模型的誤分類損失比 NCTM 和 PCTM 分別降低了 478.1 和 287.0。從不同的模型角度分析,針對混合鄰域決策系統(tǒng),PCTM 對劃分的要求較為苛刻,而 NCTM 對劃分的要求較于放松,容錯率低,導(dǎo)致劃分錯誤率提高;本文模型 MCTM 可靈活應(yīng)用于不同類型的決策系統(tǒng),容錯率高,所以具有更低的誤分類代價。
如表 7 所示,從整體上看,三種粗糙集粒計算模型所消耗的時間較少且隨著數(shù)據(jù)規(guī)模的增大而增多;從部分上看,NCTM 模型耗時相對較長,主要是由于 NCTM 是用鄰域關(guān)系計算鄰域類,每兩個對象之間都要計算,導(dǎo)致其時間復(fù)雜度較高。而 PCTM 模型和 MCTM 模型在耗時方面差異性不大,且差異性隨數(shù)據(jù)規(guī)模的增大而減小。
綜上所述,與其他 2 種不同的粗糙集模型進(jìn)行實驗對比和分析可知,本文模型總體上具有較高的分類準(zhǔn)確度和較低的誤分類損失,因此,用其對混合鄰域決策系統(tǒng)進(jìn)行劃分較為合理。
4.3.3 本文模型和序貫三支決策模型的邊界域分類方法對比
為了進(jìn)一步驗證本文模型的有效性,本小節(jié)將本文模型與序貫三支決策的方法進(jìn)行實驗對比和分析。其中,MSTM (Mixed-Neighborhood Rough set based Sequential Three-way Decision Boundary Region Processing Model) 是基于經(jīng)典序貫三支決策 [8]改造的基于混合鄰域粗糙集的序貫三支決策邊界域處理模型。實驗結(jié)果如表 8 所示,分別給出了 MCTM 和 MSTM 的分類準(zhǔn)確度、權(quán)衡因子、誤分類損失和時間的對比。
由表 8 的實驗結(jié)果可知,在數(shù)據(jù)集 Ionosphere 和 Audit Data 上,本文模型 MCTM 的分類性能與 MSTM 相同,而在另外 8 個數(shù)據(jù)集上,本文模型 MCTM 的分類性能要優(yōu)于序貫三支決策模型 MSTM。從理論上分析,由于 MSTM 直接由代價矩陣計算的閾值劃分邊界域?qū)ο螅疚脑诖嘶A(chǔ)上進(jìn)一步考慮條件概率和誤分類代價來劃分邊界域中的對象,因此本文模型 MCTM 在 Acc、F、Cost 和 Time 上表現(xiàn)較優(yōu)。為此,在同等條件下,對于混合鄰域決策系統(tǒng),本文基于屬性約簡的混合代價敏感三支決策邊界域分類方法為處理邊界域?qū)ο筇峁┝艘环N可借鑒的分析方法。
5 結(jié)束語
近年來三支決策理論成為熱點(diǎn)研究問題,其研究對象多為單一型決策系統(tǒng),然而,在許多的應(yīng)用領(lǐng)域中,數(shù)據(jù)往往呈現(xiàn)混合類型的特點(diǎn),目前三支決策對混合數(shù)據(jù)邊界域樣本處理的研究相對較少。為劃分混合決策系統(tǒng)中的邊界域?qū)ο螅疚奶岢隽嘶诨旌蠑?shù)據(jù)的屬性約簡方法;并在此基礎(chǔ)上,提出了一種基于核屬性的代價敏感三支決策邊界域分類方法。通過在不同的數(shù)據(jù)集上進(jìn)行實驗對比與分析,驗證了本文方法的可行性和有效性,獲得了一種相對合理的邊界域?qū)ο蟮膭澐址椒āS捎谛蜇炄Q策更加符合現(xiàn)實生活中的決策過程及人類的認(rèn)知,下一步工作將研究基于代價敏感的序貫三支決策的粒化問題。
論文指導(dǎo) >
SCI期刊推薦 >
論文常見問題 >
SCI常見問題 >