我們這就是有 企業(yè)挖掘中最常用的 《流失用戶分析》來說明:
數(shù)據(jù)挖掘流程:
1. 定義主題 :天啊,我在干什么!( 此模塊絕大多數(shù)主觀意識上完成,有少量客觀驗證)
1.1 明確主題用戶在各用戶群中的分布 - 流失用戶在各用戶群中比例
不同客戶群的流失程度如:某渠道,某軟件版本,頁面布局,功能等主觀上去分析。
盡量把影響流失比較大的因素詳細羅列出來 如: 概率分布,頁面布局變化影響等
1.2 明確主題用戶特征 - 流失用戶特征
對流失用戶影響比較大的字段如:金額,軟件版本(缺少最需要的功能),客服對問題的處理的時間
2. 數(shù)據(jù)選擇 :什么樣的選民,選出什么樣的總統(tǒng)!
在此模塊中有個比較難把握的地方: 維度越高越能準確的定義數(shù)據(jù),但也會越復(fù)雜度 。
你大概不會希望花3天分析出2天前的流失用戶吧!! :)
2.1 分區(qū)收集
在用戶流失分析中,若采集時間過長,可能在流失判斷出來時客戶已然流失;若采集時間過于緊密或者實時采集則需要考慮運營商現(xiàn)有系統(tǒng)的支撐能力。因此對數(shù)據(jù)采集時間間隔的設(shè)置顯得尤為重要。
2.2 減少數(shù)據(jù)噪音
2.3 剔除部分冗余數(shù)據(jù)
此間要注意的是在客戶流失分析上,從數(shù)據(jù)倉庫中采集數(shù)據(jù)的主要目的是調(diào)查客戶信息的變化情況。一些不必要的數(shù)據(jù)就去除掉吧
3. 分析數(shù)據(jù) : 熱身,很重要!
3.1 數(shù)據(jù)抽樣
多說了,在這信息爆炸的時代,別說你把上百TB的數(shù)據(jù)放到應(yīng)用分析庫中去!
3.2 數(shù)據(jù)轉(zhuǎn)換
比如時間方面:可以把上午轉(zhuǎn)換為 1 ,中午轉(zhuǎn)換為 2 等等.便于分析
3.3 缺損數(shù)據(jù)處理
3.4 樣本生成
建模樣本:為下個階段準備
測試樣本: 對模型進行修正和檢驗
4. 模型建立 : 找個合得來的過這一輩子吧!
對數(shù)據(jù)進行分析并利用各種數(shù)據(jù)挖掘技術(shù)和方法在多個可供選擇的模型中找出最佳模型,這個過程是一個循環(huán)迭代的過程.
建立模型通常由數(shù)據(jù)分析專家配合業(yè)務(wù)專家來完成
4.1 常用的流失分析模型主要有 決策樹 / 貝葉斯網(wǎng)絡(luò) / 神經(jīng)網(wǎng)絡(luò)等
5. 模型的評估與檢驗 : 開花!
6. 應(yīng)用模型 : 終于,結(jié)出好果(結(jié)果)!
$>流失分析中需要注意的問題
>>過度抽樣
國內(nèi)電信企業(yè)每月的客戶流失率一般在1%~3%左右,如果直接采用某種模型(比如決策樹、人工神經(jīng)網(wǎng)絡(luò)等)可能會因為數(shù)據(jù)概率太小而導(dǎo)致模型的失效
因此我們需要加大流失客戶在總樣本中的比例,但是這種過度抽樣必須謹慎小心,要充分考慮它的負面效應(yīng)
>> 模型的有效性
預(yù)測出結(jié)果,但用戶已經(jīng)流失 ,主要要關(guān)注采樣時間跨度問題
>> 模型的流失后分析
數(shù)據(jù)挖掘在客戶流失管理中的重要應(yīng)用不僅僅應(yīng)包括對客戶流
失的提前預(yù)警,還應(yīng)包括客戶流失后的問題分析。按照不同的客戶信息緯度,查找最容易流失的客戶群,同業(yè)務(wù)部門人員配合,輔以相關(guān)調(diào)查,力求發(fā)現(xiàn)客戶流失的
癥結(jié)所在。然而,這一部分往往由于過度專注于挖掘模型本身的擬合度而忽略了流失管理的實際價值所在。
謝謝 同事 吳 的指導(dǎo),這他的原話 轉(zhuǎn)出來供大家學(xué)習(xí)
0. 我覺得做bi和技術(shù)最大的一點差別就是
bi是數(shù)據(jù)導(dǎo)向,需求的優(yōu)先級要低于數(shù)據(jù)
1. 沒數(shù)據(jù)的話,需求就沒戲了
2. 技術(shù)是需求導(dǎo)向,只要有需求,技術(shù)基本上都能做出來
3. 數(shù)據(jù)的加載、加工、清洗,叫做etl,其實和你現(xiàn)在做的事情很像
4. etl是挖掘里非常重要的一部分
參考:數(shù)據(jù)挖掘在電信客戶流失分析中的應(yīng)用
http://www.teleinfocn.com/html/2007-02-12/3448.html
整理 m.tkk7.com/Good-Game