數(shù)據(jù)挖掘(Data Mining)時下是一個很流行的詞語,網(wǎng)上隨便搜搜便有成把成把的文章為你講述它的起源、發(fā)展等歷史。
至于這個行業(yè)真正落地的應(yīng)用個人認(rèn)為在每個行業(yè)都不一樣,我做過互聯(lián)網(wǎng)行業(yè),電信移動,銀行的也看過,記錄一下我的體會和感受。互聯(lián)網(wǎng)領(lǐng)域,這些年在 google的帶領(lǐng)下,技術(shù)日益飛進(jìn),真是3天不學(xué)習(xí)就感覺落后了,在這樣進(jìn)步的情況下,必然伴隨著行業(yè)的激烈競爭,有一些公司開始做數(shù)據(jù)挖掘,畢竟沒有競爭的挖掘做完了也不會有人用,就算用了,也不會重視你,這點我在移動的感覺非常深刻,了解互聯(lián)網(wǎng)做數(shù)據(jù)挖掘的情況最好就是先去看看各個公司招人的情況,一般這樣會直接暴露出公司想做的方向,深入的思考就會得到很多信息,這里列舉一個比較有名的互聯(lián)網(wǎng)公司的招聘信息:
數(shù)據(jù)挖掘工程師
崗位職責(zé):
1.負(fù)責(zé)數(shù)據(jù)挖掘領(lǐng)域的分析研究,包括數(shù)據(jù)挖掘算法的分析研究,特定工程的數(shù)據(jù)挖掘模型的需求分析、建模、實驗?zāi)M;
2.負(fù)責(zé)數(shù)據(jù)挖掘系統(tǒng)的開發(fā),包括需求分析、系統(tǒng)設(shè)計、系統(tǒng)測試和優(yōu)化。
任職資格:
1.計算機或數(shù)學(xué)相關(guān)專業(yè)畢業(yè),碩士以上學(xué)歷;有數(shù)據(jù)挖掘2年以上的研究或數(shù)據(jù)挖掘項目實施經(jīng)驗;
2.3年以上的Oracle數(shù)據(jù)庫的應(yīng)用軟件開發(fā)經(jīng)驗,非常熟悉Oracle存儲過程腳本編寫,熟悉PL/SQL的開發(fā)技術(shù),良好的SQL開發(fā)和調(diào)優(yōu)優(yōu)化技能;
3.3年以上數(shù)據(jù)挖掘 / 數(shù)據(jù)倉庫 / ETL相關(guān)工作經(jīng)驗, 具有深厚的統(tǒng)計學(xué)、數(shù)學(xué)、人工智能和數(shù)據(jù)挖掘知識基礎(chǔ);
4.熟悉海量數(shù)據(jù)處理和挖掘的基本算法,有電信或者教育行業(yè)數(shù)據(jù)挖掘、多維分析項目經(jīng)驗者優(yōu)先;
5.熟悉互聯(lián)網(wǎng)應(yīng)用,具備Web Service知識,熟悉Spring,Struts等框架;
6.優(yōu)秀的JAVA/J2EE編程能力,能夠使用JAVA獨立實現(xiàn)復(fù)雜的算法結(jié)構(gòu);熟悉C/C++/Perl/python更佳;
7.快速的學(xué)習(xí)和研究能力,良好的溝通能力及團(tuán)隊協(xié)作能力。
從上面不難看出點問題,這不是招人,這是在暴露自己的問題,第一公司想招人的目的性不明確,想做什么也不明確,我們對這個招聘做一個分析,簡單的分析。
首先看Coding能力,會Java,這個不難,市場上人很多,但是能實現(xiàn)獨立的算法結(jié)構(gòu),這不僅僅指簡單的算法,數(shù)據(jù)結(jié)構(gòu)什么的,要實現(xiàn)的是很多復(fù)雜的數(shù)學(xué)計算式、決策樹變種、聚類、關(guān)聯(lián)、時序等等復(fù)雜算法,這個可不是一般人能做到的,反正我還沒這個水平,估計5年內(nèi)很難達(dá)到,即使有也是google的人了;
其次,要求中寫著做過數(shù)據(jù)倉庫的項目,DW的項目國內(nèi)一般都在電信、移動、銀行,做這個的人和做互聯(lián)網(wǎng)的人思維方式工作手法完全不同,可以說傳統(tǒng)行業(yè)是比較規(guī)范的,規(guī)范到每個指標(biāo),數(shù)據(jù)統(tǒng)計口徑都要有文檔支持,雖然也有很多臨時需求,但是比起規(guī)范性來,互聯(lián)網(wǎng)差遠(yuǎn)了,反過來講互聯(lián)網(wǎng)的優(yōu)勢在于靈活,基于 DM能出現(xiàn)更多的新的小應(yīng)用,傳統(tǒng)行業(yè)里面比如電信,DM主要做三個方面的東西,集團(tuán)規(guī)范里面有明確的要求:關(guān)聯(lián),增量模型,流失模型,對應(yīng)起來就是關(guān)聯(lián)分析一般是做產(chǎn)品交叉銷售,增量模型和流失模型都是預(yù)測型模型,Dtree、回歸來做新增預(yù)測,客戶流失什么的,個別省份也會做客戶細(xì)分 (clustering做的),一般這些東西都有一套方法論,一套工作流程,一套完整的開發(fā)文檔,規(guī)范一直到最后的提交物,另外有著DW系統(tǒng)的強大支持,軟件工具的支持,比如IBM DB2,Oracle DW,NCR Teradata。各家也有工具提供業(yè)務(wù)人員和技術(shù)人員使用,IBM Miner,Oracle達(dá)爾文,NCR TWM,還有SAS,spss的DM軟件是相當(dāng)強悍的,畢竟人家的軟件開發(fā)了那么多年,賣的貴也是有道理的。以上都說明了,這些傳統(tǒng)行業(yè)的DM應(yīng)用還是比互聯(lián)網(wǎng)成熟的多的。說道互聯(lián)網(wǎng)就挺新穎得了,隨著搜索的發(fā)展,這些年只要想做Mining的都是想在基于搜索來做,MSRA有一個結(jié)果聚類的小應(yīng)用,就是這樣一個方向,另外互聯(lián)網(wǎng)研究的clickstream也是較為成功的方向,盡管好的應(yīng)用模式還沒有出現(xiàn)。
另外說金融保險領(lǐng)域也是和互聯(lián)網(wǎng)領(lǐng)域的Mining區(qū)別超級大的,金融的巴塞爾是比較火的,風(fēng)險管理等等。信用卡欺詐預(yù)測……,保險縮減理賠流程時間……,這年頭都在講流程銀行,我不明白是啥東西,也沒學(xué)過,反正牛人都在說,要學(xué)的東西太多了。
深層次思考一下就會明白,這樣的招聘是根本招不到人的,我承認(rèn)有牛人存在,什么都強,但是這樣畢竟少數(shù),可以說是極品中的極品,懂?dāng)?shù)學(xué),懂Mining,懂統(tǒng)計,能Coding,懂?dāng)?shù)據(jù)倉庫,所以互聯(lián)網(wǎng)的Mining,尤其在web2.0成熟之后招人最好還是基于開發(fā)招比較合理,因為這樣慢慢的過渡才能出現(xiàn)一些比較成型,成體系的小型的Mining應(yīng)用,才能收到實際效果。一般都是做搜索的人開始做這些東西,畢竟做搜索的人基礎(chǔ)還是不錯的。
另外業(yè)界和學(xué)校是不同的,經(jīng)常聽身邊好多Ph.D講他們那時候?qū)懳恼碌氖虑椋行┻€是比較有用的,但是畢竟產(chǎn)業(yè)界和學(xué)術(shù)界有著本質(zhì)的區(qū)別,產(chǎn)業(yè)界要賺錢,學(xué)術(shù)界就是寫文章,呵呵,都知道文章是怎么回事。
最后,互聯(lián)網(wǎng)領(lǐng)域,無論是IM,web Service,Blog等等都需要一些方向建立一些成功的小應(yīng)用,我喜歡的幾個地方有clickstream,cloud,tag system。讓我們一起期待著在web上也有類似CRM這種應(yīng)用時代的到來,預(yù)祝Web Mining越做越好!
雜文一篇,牛人不要罵,呵呵