廣西臻實(shí)項目數據分析師事務(wù)所特約分析師 陳虹堅/文
一、業(yè)務(wù)背景
交叉銷(xiāo)售是企業(yè)結合客戶(hù)需求,提高現有客戶(hù)客單價(jià)的一種營(yíng)銷(xiāo)方式。實(shí)現交叉銷(xiāo)售對于企業(yè)而言意義非凡:一是使銷(xiāo)售行為更容易成功,將產(chǎn)品或服務(wù)推銷(xiāo)給一個(gè)現有客戶(hù)比推銷(xiāo)給新客戶(hù)更容易成功;二是使客戶(hù)忠誠度增加,經(jīng)濟學(xué)上的經(jīng)驗表明,持有兩項產(chǎn)品的客戶(hù)流失率為55%,而持有四種產(chǎn)品以上的客戶(hù)流失率幾乎為零;三是提升企業(yè)盈利能力,交叉銷(xiāo)售實(shí)現在提升銷(xiāo)售的同時(shí)降低新客戶(hù)獲取的成本,提高單個(gè)客戶(hù)的貢獻度,從而實(shí)現更高的盈利。
對于企業(yè)而言,實(shí)現交叉銷(xiāo)售,首先需要通過(guò)數據分析,發(fā)現哪些產(chǎn)品經(jīng)常被一起購買(mǎi),進(jìn)而可以對用戶(hù)進(jìn)行推薦,更多時(shí)候,需要從海量的購買(mǎi)記錄中尋找交叉銷(xiāo)售的機會(huì )。Apriori算法作為最具影響力的挖掘關(guān)聯(lián)規則的算法,已經(jīng)被廣泛應用在零售、電信及網(wǎng)絡(luò )監測等眾多領(lǐng)域,成為最經(jīng)典和常用的分析方法之一。
二、Apriori算法
Apriori算法是一種挖掘布爾關(guān)聯(lián)規則頻繁項集的算法,使用候選項集通過(guò)設定一些指標找出頻繁項集。項集是產(chǎn)品的任意組合,頻繁項集就是經(jīng)常被一起購買(mǎi)的產(chǎn)品組合,反映了大部分人的購買(mǎi)習慣。簡(jiǎn)而言之,Apriori算法是要發(fā)現大部分客戶(hù)一起購買(mǎi)的產(chǎn)品A、B,建立A→B或B→A的關(guān)系式。
布爾運算(Boolean)通過(guò)對兩個(gè)以上的物體進(jìn)行并集、差集、交集的運算,從而得到新的物體形態(tài)。算法的基本思想如下:
1.如果一個(gè)項集不是頻繁項集,那么任何包含它的項集也一定不是頻繁項集。也就是說(shuō),同時(shí)購買(mǎi)產(chǎn)品A和B的人很少,那么同時(shí)購買(mǎi)A、B和C的人就更少了。
2.如果一個(gè)項集是頻繁項集,那么它的任何子集也是頻繁項集,也就是說(shuō),購買(mǎi)A、B和C的人多,那么購買(mǎi)A和B的人就更多了。
三、Apriori算法的主要指標
Apriori算法有5個(gè)關(guān)鍵指標:項集/頻繁項集、支持度、置信度、提升度、強關(guān)聯(lián)規則。
指標1、項集/頻繁項集
項集是所有產(chǎn)品及其任意組合,一個(gè)項即為一個(gè)產(chǎn)品或者組合,在多數客戶(hù)的訂單中頻繁出現的那些項就是頻繁項集。
指標2、支持度
根據項在全部客戶(hù)記錄中出現的頻率,可稱(chēng)為支持度。支持度體現了關(guān)聯(lián)規則的普遍性。
指標3、置信度
對于那些經(jīng)常被一起購買(mǎi)的產(chǎn)品,他們之間存在較強的關(guān)聯(lián)性,怎么定義關(guān)系的強弱,就涉及到置信度指標。
置信度是指客戶(hù)在持有一個(gè)產(chǎn)品(或者一組產(chǎn)品)的前提下,還持有其他產(chǎn)品的概率,置信度體現關(guān)聯(lián)規則的可靠性。
指標4、提升度
滿(mǎn)足條件的事件,相比不滿(mǎn)足條件的事件,發(fā)生增加的可能性。計算公式:Lift(A→B)=CONF(A→B)/SUPP(B)
指標5、強關(guān)聯(lián)規則
諸如A→B,購買(mǎi)A的情況下又購買(mǎi)B的事件,稱(chēng)為關(guān)聯(lián)規則。其中,滿(mǎn)足最小支持度閥值和最小置信度閥值的關(guān)聯(lián)規則稱(chēng)為強關(guān)聯(lián)規則,規則即普遍又可靠。
四、Apriori算法的基本步驟
Apriori算法主要包括以下幾個(gè)步驟:
1.數據輸入:按照格式要求準備數據,一般包含用戶(hù)ID和產(chǎn)品名稱(chēng)兩個(gè)字段??赏瑫r(shí)設定支持度閥值、置信度閥值。
2.生成項值:根據出現的全部產(chǎn)品,生成全體項集。
3.計算項集的支持度:針對每個(gè)項,分別計算支持度,同時(shí)去除小于支持度閥值的項,得到頻繁項集。
4.計算關(guān)聯(lián)規則的置信度:針對頻繁項集,建立諸如A→B的全部關(guān)聯(lián)規則,計算置信度,同時(shí)去除小于最小置信度閥值的規則。
5.將強關(guān)聯(lián)規則直觀(guān)展示出來(lái)。
6.規則分析:從業(yè)務(wù)角度出發(fā),分析規則的實(shí)際意義,提取具有現實(shí)指導意義的關(guān)聯(lián)規則。
五、SAS實(shí)現
SAS EM有專(zhuān)門(mén)的關(guān)聯(lián)規則挖掘模塊,可以交互式操作。一般包括三段代碼:
STEP1:為建模創(chuàng )建事物數據庫,即為分析準備一個(gè)虛擬環(huán)境,不產(chǎn)生分析結果。
STEP2:用于生成項集并根據支持度閥值得到頻繁項集,當產(chǎn)品項很多時(shí),運算量會(huì )較大。頻繁項集輸出到列表ASC_RESULT中。
STEP3:利用頻繁項集構造滿(mǎn)足最小置信度閥值的強關(guān)聯(lián)規則,并直觀(guān)展示出來(lái),輸出到列表RLA_RULES中。
部分代碼清單如下:
PROC DMDB
DATA=Asso_Datsrc
OUT=_null_
DMDBCAT=Tmp2;
ID Csr_Id;
CLASS Prod;
TARGET Prod;
RUN;
PROC ASSOC
DMDBCAT=TMP2
DATA=Assoc_Datsrc
OUT=Asc_Result
PCTSUP=10
ITEMS=4;
CUSTOMER Car_Id;
TARGET Prod;
QUIT;
PROC RULEGEN
IN=Asc_Result
OUT=Rla_Rules
MINCONF=60;
QUIT;
備注:
1.廣西臻實(shí)項目數據分析師事務(wù)所業(yè)務(wù)范圍:
●投資項目評估、經(jīng)濟效益評價(jià)、項目數據處理、項目融資、投資項目策劃、社會(huì )經(jīng)濟咨詢(xún)等。
●專(zhuān)業(yè)項目數據分析評估:為眾多投資人提供專(zhuān)業(yè)項目分析服務(wù),減少投資風(fēng)險;
●撰寫(xiě)項目數據分析報告:為項目方編寫(xiě)項目數據分析報告;
●提供融資服務(wù):項目融資與項目分析工作緊密相連,是項目分析工作價(jià)值的體現;
●項目理財策劃:項目運營(yíng)的關(guān)健是現金流,是數據真實(shí)的體現, CPDA重要的工作是對未來(lái)運營(yíng)情況的判…
2.廣西數據分析師探討交流QQ群:117268053
3.業(yè)務(wù)咨詢(xún)電話(huà):0771-5862703/18978862530 韋勛峰經(jīng)理
(聲明:文章來(lái)源于網(wǎng)絡(luò ),不代表本站觀(guān)點(diǎn)及立場(chǎng),版權歸原作者所有,若有侵權或異議請聯(lián)系更正或刪除)