我們這就是有 企業挖掘中最常用的 《流失用戶分析》來說明:
數據挖掘流程:
1. 定義主題 :天啊,我在干什么!( 此模塊絕大多數主觀意識上完成,有少量客觀驗證)
1.1 明確主題用戶在各用戶群中的分布 - 流失用戶在各用戶群中比例
不同客戶群的流失程度如:某渠道,某軟件版本,頁面布局,功能等主觀上去分析。
盡量把影響流失比較大的因素詳細羅列出來 如: 概率分布,頁面布局變化影響等
1.2 明確主題用戶特征 - 流失用戶特征
對流失用戶影響比較大的字段如:金額,軟件版本(缺少最需要的功能),客服對問題的處理的時間
2. 數據選擇 :什么樣的選民,選出什么樣的總統!
在此模塊中有個比較難把握的地方: 維度越高越能準確的定義數據,但也會越復雜度 。
你大概不會希望花3天分析出2天前的流失用戶吧!! :)
2.1 分區收集
在用戶流失分析中,若采集時間過長,可能在流失判斷出來時客戶已然流失;若采集時間過于緊密或者實時采集則需要考慮運營商現有系統的支撐能力。因此對數據采集時間間隔的設置顯得尤為重要。
2.2 減少數據噪音
2.3 剔除部分冗余數據
此間要注意的是在客戶流失分析上,從數據倉庫中采集數據的主要目的是調查客戶信息的變化情況。一些不必要的數據就去除掉吧
3. 分析數據 : 熱身,很重要!
3.1 數據抽樣
多說了,在這信息爆炸的時代,別說你把上百TB的數據放到應用分析庫中去!
3.2 數據轉換
比如時間方面:可以把上午轉換為 1 ,中午轉換為 2 等等.便于分析
3.3 缺損數據處理
3.4 樣本生成
建模樣本:為下個階段準備
測試樣本: 對模型進行修正和檢驗
4. 模型建立 : 找個合得來的過這一輩子吧!
對數據進行分析并利用各種數據挖掘技術和方法在多個可供選擇的模型中找出最佳模型,這個過程是一個循環迭代的過程.
建立模型通常由數據分析專家配合業務專家來完成
4.1 常用的流失分析模型主要有 決策樹 / 貝葉斯網絡 / 神經網絡等
5. 模型的評估與檢驗 : 開花!
6. 應用模型 : 終于,結出好果(結果)!
$>流失分析中需要注意的問題
>>過度抽樣
國內電信企業每月的客戶流失率一般在1%~3%左右,如果直接采用某種模型(比如決策樹、人工神經網絡等)可能會因為數據概率太小而導致模型的失效
因此我們需要加大流失客戶在總樣本中的比例,但是這種過度抽樣必須謹慎小心,要充分考慮它的負面效應
>> 模型的有效性
預測出結果,但用戶已經流失 ,主要要關注采樣時間跨度問題
>> 模型的流失后分析
數據挖掘在客戶流失管理中的重要應用不僅僅應包括對客戶流 失的提前預警,還應包括客戶流失后的問題分析。按照不同的客戶信息緯度,查找最容易流失的客戶群,同業務部門人員配合,輔以相關調查,力求發現客戶流失的 癥結所在。然而,這一部分往往由于過度專注于挖掘模型本身的擬合度而忽略了流失管理的實際價值所在。
謝謝 同事 吳 的指導,這他的原話 轉出來供大家學習
0. 我覺得做bi和技術最大的一點差別就是
bi是數據導向,需求的優先級要低于數據
1. 沒數據的話,需求就沒戲了
2. 技術是需求導向,只要有需求,技術基本上都能做出來
3. 數據的加載、加工、清洗,叫做etl,其實和你現在做的事情很像
4. etl是挖掘里非常重要的一部分
參考:數據挖掘在電信客戶流失分析中的應用
http://www.teleinfocn.com/html/2007-02-12/3448.html
整理 m.tkk7.com/Good-Game
數據挖掘流程:
1. 定義主題 :天啊,我在干什么!( 此模塊絕大多數主觀意識上完成,有少量客觀驗證)
1.1 明確主題用戶在各用戶群中的分布 - 流失用戶在各用戶群中比例
不同客戶群的流失程度如:某渠道,某軟件版本,頁面布局,功能等主觀上去分析。
盡量把影響流失比較大的因素詳細羅列出來 如: 概率分布,頁面布局變化影響等
1.2 明確主題用戶特征 - 流失用戶特征
對流失用戶影響比較大的字段如:金額,軟件版本(缺少最需要的功能),客服對問題的處理的時間
2. 數據選擇 :什么樣的選民,選出什么樣的總統!
在此模塊中有個比較難把握的地方: 維度越高越能準確的定義數據,但也會越復雜度 。
你大概不會希望花3天分析出2天前的流失用戶吧!! :)
2.1 分區收集
在用戶流失分析中,若采集時間過長,可能在流失判斷出來時客戶已然流失;若采集時間過于緊密或者實時采集則需要考慮運營商現有系統的支撐能力。因此對數據采集時間間隔的設置顯得尤為重要。
2.2 減少數據噪音
2.3 剔除部分冗余數據
此間要注意的是在客戶流失分析上,從數據倉庫中采集數據的主要目的是調查客戶信息的變化情況。一些不必要的數據就去除掉吧
3. 分析數據 : 熱身,很重要!
3.1 數據抽樣
多說了,在這信息爆炸的時代,別說你把上百TB的數據放到應用分析庫中去!
3.2 數據轉換
比如時間方面:可以把上午轉換為 1 ,中午轉換為 2 等等.便于分析
3.3 缺損數據處理
3.4 樣本生成
建模樣本:為下個階段準備
測試樣本: 對模型進行修正和檢驗
4. 模型建立 : 找個合得來的過這一輩子吧!
對數據進行分析并利用各種數據挖掘技術和方法在多個可供選擇的模型中找出最佳模型,這個過程是一個循環迭代的過程.
建立模型通常由數據分析專家配合業務專家來完成
4.1 常用的流失分析模型主要有 決策樹 / 貝葉斯網絡 / 神經網絡等
5. 模型的評估與檢驗 : 開花!
6. 應用模型 : 終于,結出好果(結果)!
$>流失分析中需要注意的問題
>>過度抽樣
國內電信企業每月的客戶流失率一般在1%~3%左右,如果直接采用某種模型(比如決策樹、人工神經網絡等)可能會因為數據概率太小而導致模型的失效
因此我們需要加大流失客戶在總樣本中的比例,但是這種過度抽樣必須謹慎小心,要充分考慮它的負面效應
>> 模型的有效性
預測出結果,但用戶已經流失 ,主要要關注采樣時間跨度問題
>> 模型的流失后分析
數據挖掘在客戶流失管理中的重要應用不僅僅應包括對客戶流 失的提前預警,還應包括客戶流失后的問題分析。按照不同的客戶信息緯度,查找最容易流失的客戶群,同業務部門人員配合,輔以相關調查,力求發現客戶流失的 癥結所在。然而,這一部分往往由于過度專注于挖掘模型本身的擬合度而忽略了流失管理的實際價值所在。
謝謝 同事 吳 的指導,這他的原話 轉出來供大家學習
0. 我覺得做bi和技術最大的一點差別就是
bi是數據導向,需求的優先級要低于數據
1. 沒數據的話,需求就沒戲了
2. 技術是需求導向,只要有需求,技術基本上都能做出來
3. 數據的加載、加工、清洗,叫做etl,其實和你現在做的事情很像
4. etl是挖掘里非常重要的一部分
參考:數據挖掘在電信客戶流失分析中的應用
http://www.teleinfocn.com/html/2007-02-12/3448.html
整理 m.tkk7.com/Good-Game