CRM系統(tǒng):聚類模型在客戶關(guān)系管理中的應(yīng)用以及對特征提取的探討
3 對客戶數(shù)據(jù)進(jìn)行聚類分析
把聚類算法應(yīng)用到客戶數(shù)據(jù)上面,通常需要以
下幾個步驟: ①特征提取; ②歸一化; ③聚類; ④分
析聚類的結(jié)果。表1 是關(guān)于移動客戶的數(shù)據(jù)。本節(jié)
將以這個移動數(shù)據(jù)作為例子,討論進(jìn)行聚類分析的
每個步驟。
311 特征提取
特征屬性提取是應(yīng)用聚類算法,也是其他數(shù)據(jù)
挖掘算法之前的一個重要的步驟。因為數(shù)據(jù)都是從
現(xiàn)實世界中收集的,不像用于理論分析而人工生成
的數(shù)據(jù)那樣“純凈”。在收集數(shù)據(jù)時,常常會記錄很
多屬性。但是,在對數(shù)據(jù)進(jìn)行聚類的時候,并不是每
一個屬性都對聚類分析有用;每一個對聚類分析有
用的屬性,他們對聚類的影響也不是同等的。比如
在表1 中的移動數(shù)據(jù),地址對移動客戶消費群的劃
分是沒有貢獻(xiàn)的,因為移動客戶不會因為他們的地
理上的相近而產(chǎn)生相似的消費行為。像手機(jī)用戶的
年齡和性別,他們對聚類有一定的貢獻(xiàn),可是他們的
影響不像用戶的通話分鐘數(shù)等消費屬性那么直接。
因此,在進(jìn)行聚類分析前,需要把無關(guān)的屬性去掉,
并給一些影響小的屬性確定一個較小的權(quán)重,以減
輕它們在聚類過程中,對距離的貢獻(xiàn)。
另一個問題是,不同的屬性之間可能會存在關(guān)
聯(lián),甚至是完全相關(guān)。比如說,一個客戶的月收入水
平比較低,那么他的話費很可能就比較低;而一個高
收入的客戶,他的話費也比較可能偏高。因此月收
入和話費這兩個特征是有一定關(guān)聯(lián)性的。再看一個
例子,在表格一中,特征“短途分鐘”和“短途話費”是
完全相關(guān)的。從前者可以通過某種公式計算出后者
(在我們的例子中,是“單價3 短途分鐘= 短途話
費”) 常常我們不希望在計算兩個客戶之間的距離
時,計入一個屬性的雙重或者多重影響。所以我們
需要進(jìn)行特征提取,除去冗余和無關(guān)的屬性,剩下的
屬性就是用于聚類分析的相關(guān)屬性了。在第四節(jié)
中,我們將會給出在非監(jiān)督學(xué)習(xí)中,進(jìn)行特征提取的
具體算法,并且和監(jiān)督學(xué)習(xí)中的特征提取算法進(jìn)行
比較。
312 離散屬性值
聚類算法是基于數(shù)據(jù)點之間的距離,它的目標(biāo)
是把相似的數(shù)據(jù)點聚為一類,把不相似的數(shù)據(jù)點劃
分到不同的子類。對于連續(xù)的屬性值,距離的衡量
是很自然的。
313 歸一化
歸一化是數(shù)據(jù)預(yù)處理的另一個重要步驟。在聚
類的不同屬性中,每一個屬性有不同的取值范圍。
比如在表1 中的移動數(shù)據(jù),年齡通常在[ 18 , 80 ] , 然
而,通話分鐘數(shù)的取值通常在幾百。如果把這兩個
距離簡單的相加,那么在通話分鐘屬性上的距離會
大大超過年齡上的距離,從而削弱年齡差距的影響。
一種辦法是把每個屬性的取值范圍都?xì)w一化到[ 0 ,
1 ] 的范圍內(nèi)。也可以給不同的屬性根據(jù)他們重要
性的大小,賦上不同的權(quán)值。
314 聚類分析
對數(shù)據(jù)預(yù)處理好之后,就可以運用聚類算法進(jìn)
行聚類分析了。可以根據(jù)問題的需要,選擇相應(yīng)的
算法。
運用聚類算法之后,需要管理人員對聚類的結(jié)
果進(jìn)行分析,并作出反饋。比如說,從聚類的結(jié)果來
看,是否合理,是否符合他們的預(yù)期結(jié)果。比如,用
戶在運用K2Means 分析移動客戶的時候,指定k =
3 。但是從聚類的結(jié)果來看,分成3 個子類,并不能
很好的區(qū)分客戶群體。因此用戶需要調(diào)整聚類的參
數(shù),重新對數(shù)據(jù)進(jìn)行聚類分析,直到聚類的結(jié)果合理
為止。
4 非監(jiān)督學(xué)習(xí)中的特征提取算法
在這一節(jié)中,我們介紹在非監(jiān)督學(xué)習(xí)中的特征
提取算法。在監(jiān)督學(xué)習(xí)中,特征提取問題被研究的
很多。主要有兩類代表性的算法。第一類叫wrap2
per app roach[10 ] , 就是把各種特征組合成不同的特
征子集,用一個分類算法來測試在不同特征子集上
的分類正確率,以此來選擇最好的特征子集。特征
子集通常有以下兩種方法產(chǎn)生: ①向前選擇,從單個
特征開始,然后每次往當(dāng)前的特征子集里面增加一
個好的特征,再測試正確率; ②向后消除,現(xiàn)選中所
有的特征,然后每次剔除一個差的特征,在剩下的特
征子集中,測試正確率。第二類算法是對每個特征
計算一個分?jǐn)?shù),衡量它的重要性。對所有特征按分
數(shù)排序,剔除那些分?jǐn)?shù)低的特征。Fisher Score 和
Information Gain 就屬于這一類。在進(jìn)行這一類分
數(shù)計算的時候,通常需要類屬性值來幫助衡量一個
特征的重要性。
在文獻(xiàn)[ 11 ]中提出了一個新的特征提取算法
Laplacian Score (L S)1 這個算法的思想是,假設(shè)在
一個n 維空間,兩個數(shù)據(jù)點距離很近。如果我們選
擇一個k (k < n) 維的子空間,在這個子空間中,這
兩個數(shù)據(jù)點仍然很近。那么我們認(rèn)為這個k 維的子
空間能夠很好的保持?jǐn)?shù)據(jù)點在原來n 維空間的臨近
關(guān)系。這種性質(zhì)叫做Locality Preserving1 在LS
算法中, 對每一個特征都計算出它的Laplacian
Score , 來反映它的Locality Preserving power 。為
了描述數(shù)據(jù)點附近的幾何結(jié)構(gòu),我們建一個nearest
neighbor 圖。LS 要提取出那些能夠保持這個圖的
結(jié)構(gòu)的特征。
我們認(rèn)為,L S 很適用于解決聚類問題中的特征
選擇問題。因為①L S 不需要知道類屬性,這正是
聚類問題所不能提供的信息。②L S 尋找的是可以
保持?jǐn)?shù)據(jù)點臨近結(jié)構(gòu)(距離) 的特征,這與聚類問題
的目標(biāo)是一致的。
我們在下面給出L S 算法的詳細(xì)描述。讓Lr
表示第r 個特征的Laplacian Score1 讓f ri 表示第i
個數(shù)據(jù)點的第r 個特征值, i = 1 , ⋯,m1 該算法的
理論分析可以參見文獻(xiàn)[11 ] 。
在第五節(jié),我們將在實驗中檢驗LS 算法在聚
類算法中的有效性。
強(qiáng)力推薦:
天柏客戶關(guān)系管理系統(tǒng)
天柏客戶關(guān)系管理系統(tǒng)(CRM)是一款集專業(yè)性、實用性、易用性為一體的純B/S架構(gòu)的CRM系統(tǒng),它基于以客戶為中心的協(xié)同管理思想和營銷理念,圍繞客戶生命周期的整個過程,針對不同價值的客戶實施以客戶滿意為目標(biāo)的營銷策略,通過企業(yè)級協(xié)同,有效的“發(fā)現(xiàn)、保持和留住客戶”,從而達(dá)到留住客戶、提高銷售,實現(xiàn)企業(yè)利潤最大化的目的。通過對客戶進(jìn)行7P的深入分析,即客戶概況分析(Profiling)、客戶忠誠度分析(Persistency)、客戶利潤分析(Profitability)、客戶性能分析(Performance)、客戶未來分析(Prospecting)、客戶產(chǎn)品分析(Product)、客戶促銷分析(Promotion)以及改善與管理企業(yè)銷售、營銷、客戶服務(wù)和支持等與客戶關(guān)系有關(guān)的業(yè)務(wù)流程并提高各個環(huán)節(jié)的自動化程度,從而幫助企業(yè)達(dá)到縮短銷售周期、降低銷售成本、擴(kuò)大銷售量、增加收入與盈利、搶占更多市場份額、尋求新的市場機(jī)會和銷售渠道,最終從根本上提升企業(yè)的核心競爭力,使得企業(yè)在當(dāng)前激烈的競爭環(huán)境中立于不敗之地。
關(guān)鍵詞:CRM,CRM系統(tǒng),CRM軟件,客戶關(guān)系管理,客戶管理軟件,客戶管理系統(tǒng),客戶關(guān)系管理軟件,客戶關(guān)系管理系統(tǒng)