1.馬爾可夫
2.GBDT,隨機(jī)森林
3.SVD,LDA等理論
4.上述理論的工具使用
5.網(wǎng)絡(luò)可視化工具的調(diào)研
暫時(shí)就想到這些,到時(shí)候再補(bǔ)充~
posted @
2012-02-29 10:16 Seraphi 閱讀(242) |
評(píng)論 (0) |
編輯 收藏
Apriori算法乃是關(guān)聯(lián)規(guī)則挖掘的經(jīng)典算法,盡管是94年提出的算法,然而至今也有著旺盛的生命力。在互聯(lián)網(wǎng)科學(xué)領(lǐng)域,也有著廣泛的應(yīng)用,因此還是值得大家都對(duì)此學(xué)習(xí)一下。
一、術(shù)語(yǔ)
1.支持度:support,所有實(shí)例中覆蓋某一項(xiàng)集的實(shí)例數(shù)。
2.置信度:confidence。對(duì)于X→Y這個(gè)規(guī)則,如果數(shù)據(jù)庫(kù)的包含X的實(shí)例數(shù)的c%也包含Y,則X→Y的置信度為c%。
3.頻繁項(xiàng)集:也稱(chēng)large itemsets,指支持度大于minsup(最小支持度)的項(xiàng)集
二、思想
1.Apriori算法思想與其它關(guān)聯(lián)規(guī)則挖掘算法在某些方面是相同的。即首先找出所有的頻繁項(xiàng)集,然后從頻繁項(xiàng)集中抽取出規(guī)則,再?gòu)囊?guī)則中將置信度小于最小置信度的規(guī)則剃除掉。
2.若項(xiàng)集i為頻繁項(xiàng)集,則其所有子集必為頻繁項(xiàng)集。因此,Apriori算法思想在于從頻繁的k-1項(xiàng)集中合并出k項(xiàng)集,然后剃除掉子集有不是頻繁項(xiàng)集的k項(xiàng)集。
3.先從數(shù)據(jù)庫(kù)中讀出每條實(shí)例,對(duì)于設(shè)定閾值,選出頻繁1項(xiàng)集,然后從頻繁1項(xiàng)集中合并,并剃除掉包含非頻繁1項(xiàng)集子集的2項(xiàng)集……
4.符號(hào)說(shuō)明:
L
k:Set of large(frequent) k-itemsets
C
k:Set of candidate k-itemsets
apriori-gen()函數(shù)通過(guò)合并k-1的頻繁項(xiàng)集,生成C
k
三、算法描述
1) Apriori基本算法
1
L1={large 1-itemsets};
2
for(k=2;Lk-1!=Φ;k++)
3
{
4
Ck=apriori-gen(Lk-1);
5
for(all transaction t∈D)
6
{
7
Ct=subset(Ck,t);
8
for(all candidates c∈Ct)
9
c.count++;
10
}
11
Lk={c∈Ck|c.count>=minsup}
12
}
13
Answer=∪k Lk; 2)apriori-gen()函數(shù)
這個(gè)函數(shù)將L
k-1(即所有k-1頻繁項(xiàng)集的集合)作為參數(shù),返回一個(gè)L
k的超集(即C
k)
算法如下:
1
insert into Ck
2
select p.item1, p.item2,
,p.itemk-1,q.itemk-1
3
from Lk-1 p, Lk-1 q
4
where p.item1=q.item1, p.item2=q.item2,
, p.itemk-1<q.itemk-1 然后通過(guò)剪枝,剃除掉C
k中某些子集不為頻繁k-1項(xiàng)集的項(xiàng)集,算法如下:
1
for(all items c∈C
k)
3)從頻繁項(xiàng)集中生成規(guī)則
1
for(all l∈Answer)
2
{
3
A=set of nonempty-subset(l);
4
for(all a∈A)
5
{
6
output a→(l-a);
7
}
8
} 四、舉例(這里將minsup=1,mincof=0.5)
L3={{1 2 3}{1 2 4}{1 3 4}{1 3 5}{2 3 4}}
在合并步驟時(shí),選取L3中,前兩個(gè)項(xiàng)都相同,第三個(gè)項(xiàng)不同的項(xiàng)集合并,如{1 2 3}與{1 2 4}合并、{1 3 4}與{1 3 5}合并成{1 2 3 4}和{1 3 4 5}。因此,C4={{1 2 3 4}{1 3 4 5}},但是由于{1 3 4 5}中某子集{3 4 5}并未在L3中出現(xiàn),因此,將{1 3 4 5}剃除掉,所以L4={{1 2 3 4}}。
然后以L4為例,選取出關(guān)聯(lián)的規(guī)則:
L4中{1 2 3 4}項(xiàng)集中抽取出(這里只列出左邊為3項(xiàng)的情況):
{1 2 3}→4
{1 2 4}→3
{1 3 4}→2
{2 3 4}→1
顯然,因?yàn)橹挥幸粋€(gè)4項(xiàng)集,因此,這四條規(guī)則的置信度都為100%。因此,全數(shù)為關(guān)聯(lián)規(guī)則。
五、Apriori變體
有些Apriori變體為追求時(shí)間效率,不是從L
1→C
2→L
2→C
3→....的步驟產(chǎn)生,而是從L
1→C
2→C
3'..產(chǎn)生。
參考文獻(xiàn):
Agrawal, Rakesh, Srikant, Ramakrishnan. Fast algorithms for mining association rules in large databases. Very Large Data Bases, International Conference Proceedings, p 487, 1994
posted @
2012-02-27 13:08 Seraphi 閱讀(780) |
評(píng)論 (0) |
編輯 收藏
大致內(nèi)容:本文要解決的主要問(wèn)題是社交網(wǎng)絡(luò)中的標(biāo)簽推薦(本文主要為音樂(lè)、視頻等多媒體對(duì)象推薦合適的標(biāo)簽)。較之以前的推薦策略——a.根據(jù)已有標(biāo)簽進(jìn)行詞語(yǔ)共現(xiàn)的推薦; b.根據(jù)文本特征(如標(biāo)題、描述)來(lái)推薦; c.利用標(biāo)簽相關(guān)性度量來(lái)推薦。大部分僅僅至多使用了上述的兩種策略,然而本文將3種特征全部結(jié)合,并提出一些啟發(fā)式的度量和兩種排序?qū)W習(xí)(L2R)的方法,使得標(biāo)簽推薦的效果(p@5)有了顯著的提高。
問(wèn)題陳述:作者將數(shù)據(jù)集分為三類(lèi):train, validation, test。對(duì)于訓(xùn)練集D,包含<L
d,F
d>。L
d指對(duì)象d的所有標(biāo)簽集;F
d指d的文本特征集(即L
d=L
1d∪L2d∪L
3d...L
nd,F
d=F
1d∪ F
2d∪ F
3d....F
nd)。對(duì)于驗(yàn)證集和測(cè)試集,由三部分組成<L
o,F
o,y
o>。L
o為已知標(biāo)簽,y
o為答案標(biāo)簽,實(shí)驗(yàn)中作者將一部分標(biāo)簽劃分L
o,一部分為y
o,這樣做可以方便系統(tǒng)自動(dòng)評(píng)價(jià)推薦性能。
Metrics說(shuō)明:(1)Tag Co-occurrence:基于共現(xiàn)方法的標(biāo)簽推薦主要是利用了關(guān)聯(lián)規(guī)則(association rules),如X→y,X為前導(dǎo)標(biāo)簽集,y為根據(jù)X(經(jīng)過(guò)統(tǒng)計(jì))得到的標(biāo)簽。還要提到兩個(gè)參數(shù):support(
σ),意為X,y在訓(xùn)練集中共現(xiàn)的次數(shù),confidence(
θ)=p(y與object o相關(guān)聯(lián)|X與object o相關(guān)聯(lián))。由于從訓(xùn)練集中得到的規(guī)則很多,因此要設(shè)定σ 、θ 的最小閾值,只選取最為頻繁發(fā)生、最可靠的共現(xiàn)信息。
Sum(c,o,l)=
ΣX⊆L0 θ(X→c), (X→c)
∈R, |X|≤l
(2)Discriminative Power: 指區(qū)分度,對(duì)于一個(gè)頻繁出現(xiàn)的標(biāo)簽特征,區(qū)分度會(huì)很低。作者提出一個(gè)IFF度量(類(lèi)似于IR中的IDF),定義如下:
IFF(c)=log[(|D|+1)/(fctag+1)]
其中f
ctag為訓(xùn)練集D中,以c作為標(biāo)簽者的對(duì)象數(shù)。
盡管這個(gè)度量可能偏重于一些并未在訓(xùn)練集中出現(xiàn)作為標(biāo)簽的詞語(yǔ),然而在排序函數(shù)中,它的權(quán)重會(huì)被合理安排。
另外,過(guò)于頻繁的標(biāo)簽和過(guò)于稀少的標(biāo)簽都不會(huì)是合理的推薦,而那些頻率中等的term則最受青睞。有一種Stability(Stab)度量?jī)A向于頻率適中的詞語(yǔ):
Stab(c,k
s)=k
s/[k
s+|k
s-log(f
ctag)|] , 其中k
s表示term的理想頻率,要根據(jù)數(shù)據(jù)集來(lái)調(diào)整。
(3)Descriptive Power
指對(duì)于一個(gè)侯選c的描述能力,主要有如下4種度量
:①TF: TF(c,o)=
ΣFoi∈Fo tf(c,Foi)②TS: TS(c,o)=
ΣFoi∈Fo j, where j=1 (if c
∈Foi )
, otherwise j=0③wTS:wTS(c,o)=
ΣFoi∈Fo j, where j=AFS(F
i) (if c∈
Foi )
, otherwise j=0 ④wTF:wTS(c,o)=
ΣFoi∈Fo tf(c,Foi), where j=AFS(F
i) (if c∈
Foi )
, otherwise j=0 這里要引入兩個(gè)概念:
FIS:Feature Instance spread. FIS(F
oi) 為F
oi中所有的term的平無(wú)數(shù)TS值。
AFS:Average Feature Spread:AFS(F
i)為訓(xùn)練集中所有對(duì)象的平均FIS(F
oi),即
AFS(F
i)=
Σoj∈D FIS(Foji)/|D|
(4)詞項(xiàng)預(yù)測(cè)度
Heymann et al.[11]通過(guò)詞項(xiàng)的熵來(lái)度量這個(gè)特征。
詞項(xiàng)c在標(biāo)簽特征的熵值H
tags(c)=-
Σ(c→i)∈R θ(c→i)logθ(c→i) ,其中R為訓(xùn)練集中的規(guī)則集。
標(biāo)簽推薦策略:(1)幾個(gè)先進(jìn)的baseline:
① Sum
+:擴(kuò)展了Sum度量,通過(guò)相應(yīng)關(guān)聯(lián)規(guī)則的前導(dǎo)和后繼中的詞項(xiàng)的Stablity為Confidence賦予權(quán)重。給定一個(gè)對(duì)象o的侯選標(biāo)簽c,Sum
+定義如下:
Sum
+(c,o,k
x,k
c,k
r)=
Σx∈L
0 θ(x→c)*Stab(x,kx)*Stab(c,kc)*Rank(c,o,kr)
其中:k
x,k
c,k
r為調(diào)節(jié)參數(shù),Rank(c,o,k
r)=k
r/[k
r+p(c,o), p(c,o)為c在這個(gè)關(guān)聯(lián)規(guī)則中confidence排名的位置,這個(gè)值可以使Confidence值更為平滑地衰減。Sum
+限制了前導(dǎo)中的標(biāo)簽數(shù)為1。
② LATRE(Lazy Associative Tag Recommendation):與Sum
+不同,LATRE可以在立即請(qǐng)求的方式快速生成更大的關(guān)聯(lián)規(guī)則,這與其它策略不同(因?yàn)樗鼈兌际鞘孪仍谟?xùn)練集中計(jì)算好所有的規(guī)則),但也可能包含一些在測(cè)試集中并不是很有用的規(guī)則。 LATRE排序每個(gè)侯選c,通過(guò)相加所有包含c的規(guī)則的confidence值。
③ CTTR(Co-occurrence and Text based Tag Recommender):利用了從文本域特征中抽取出的詞項(xiàng)和一個(gè)相關(guān)性度量,但所有考慮事先已經(jīng)賦給對(duì)象o的標(biāo)簽。作者對(duì)比CTTR與作者的方法,評(píng)價(jià)了作者自創(chuàng)幾個(gè)度量和應(yīng)用事先預(yù)有標(biāo)簽的有效性,篇幅有限,不再對(duì)此詳述。
(2) New Heuristics
8種,作者擴(kuò)展了Sum
+和LATRE baseline加入了描述性度量(TS,TF,wTS,wTF),共合成了8種方案。
Sum
+DP(c,o,k
x,k
c,k
r,
α)=αSum
+(c,o,k
x,k
c,k
r)+(1-α)DP(c,o)
LATRE
+DP(c,o,l,α)=αSum(c,o,l)+(1-α)DP(c,o)
(3)排序?qū)W習(xí)策略:
對(duì)一個(gè)Metric矩陣(對(duì)于侯選c)M
c∈Rm,m是考慮的metric數(shù),即矩陣的維數(shù)。然后驗(yàn)證集V的對(duì)象v賦一個(gè)Y
c,若c為v的合理推薦,Y
c=1,否則Y
c=0。因?yàn)橛?xùn)練集用來(lái)抽取關(guān)聯(lián)規(guī)則和計(jì)算metrics,驗(yàn)證集用來(lái)學(xué)習(xí)solutions,因此只對(duì)驗(yàn)證集賦Y
c。學(xué)習(xí)模型,即排序函數(shù)f(M
c)將被用于測(cè)試集:
① RankSVM:作者使用SVM-rank tool學(xué)習(xí)一個(gè)函數(shù)f(M
c)=f(W,M
c),其中W=<w
1,w
2,....,w
m>是一個(gè)對(duì)metrics賦權(quán)值的向量。其中,RankSVM有兩個(gè)參數(shù),kernel function和cost j。
② 遺傳算法:
這里將個(gè)體(即標(biāo)簽排序函數(shù))看成一個(gè)樹(shù)表示,葉子結(jié)點(diǎn)為變量或常數(shù)。樹(shù)內(nèi)結(jié)點(diǎn)為基本運(yùn)算符(+,-,*,/,ln)。若域超出運(yùn)算范圍,結(jié)果默認(rèn)為0。例如,一個(gè)樹(shù)表示函數(shù):Sum+0.7*TS,如下圖:
.JPG)
個(gè)體的健壯度(Fitness)表示相應(yīng)排序函數(shù)的推薦質(zhì)量,本文以P@k為衡量標(biāo)準(zhǔn)給定f(M
c),y
o是o的相關(guān)標(biāo)簽,R
of是通過(guò)f(M
c)排序后的o的推薦結(jié)果,R
k,of的R
of中前k個(gè)結(jié)果,推薦質(zhì)量定義如下:
P@k(R
of,y
o,f)=|R
k,of∩yo|/min(k,|y
o|)
實(shí)驗(yàn)評(píng)價(jià):(1)數(shù)據(jù)收集:LastFM, Youtube, YahooVideo。 然后去停用詞,詞干化處理(Poster Stemmer)
(2)評(píng)價(jià)方法:
a.將object預(yù)先的一些標(biāo)簽一部分作為已經(jīng),一部分作為答案,方便評(píng)價(jià),某些生成的答案,并不能在答案集中,但并不意味不相關(guān),因此可作為lower bound。
b.在實(shí)際實(shí)驗(yàn)中,作者將驗(yàn)證集和測(cè)試集的對(duì)象標(biāo)簽平均分為L(zhǎng)
o,y
o,使用title和description作為文本特征F
o。
c.在評(píng)價(jià)指標(biāo)上,主要使用P@5,并用了Recall和MAP值
d.以?xún)煞N方案來(lái)對(duì)各種推薦方法評(píng)價(jià):
① 把每個(gè)數(shù)據(jù)集分為3份,對(duì)應(yīng)小規(guī)模,中規(guī)模,大規(guī)模,以便針對(duì)每種情況,調(diào)整參數(shù),評(píng)價(jià)不同規(guī)模下各方法的效果
② 利用整個(gè)數(shù)據(jù)集,統(tǒng)一的評(píng)價(jià)
這兩種方案,①更加有針對(duì)性,②則代價(jià)較低
對(duì)于第一個(gè)方案,作者隨機(jī)從每個(gè)子集(大、中、小規(guī)模)中選取50000個(gè)樣本,對(duì)于第二種方案,作者使用第一個(gè)方案選取出的3個(gè)樣本集組合的樣本。這兩種方案都把每個(gè)樣本集分為5份來(lái)做5折交叉驗(yàn)證。3/5做訓(xùn)練,1/5做驗(yàn)證,1/5做測(cè)試。之所以在驗(yàn)證集上做L2R是為了避免過(guò)擬合。
(3)參數(shù)設(shè)定
① Sum
+DP中,k
r=k
x=k
c=5,
α=[0.7,1.0]
② LATRE
+DP和L2R中,l=3, k
s=5。在確定
σmin和θmin時(shí),將值設(shè)定為與σ
min和θ
min=0相比,結(jié)果下降小于3%的值
③ RankSVM中,選定線性核,cost j=100
④ 歸一化特征向量結(jié)果不明顯,因此本文并沒(méi)有采取特征向量歸一化。
(4)實(shí)驗(yàn)結(jié)果:
a. LastFM上提升較小,原因有二:① 有LastFM上標(biāo)簽、標(biāo)題、描述內(nèi)容重疊少,使TS,wTS集中在小值上,使得難以區(qū)別good,bad;② LastFM上對(duì)象標(biāo)簽較少,使TS,wTS難以發(fā)揮較好作用。
b. LATRE在大部分情況,好于Sum
+,而CTTR在一些情況好于LATRE。尤其是在Youtube。
c. 對(duì)比每個(gè)方案和數(shù)據(jù)集,作者的heuristics都有較大提升,因此引入描述性度量(descriptive power)會(huì)顯著提高推薦效果,尤其是標(biāo)簽數(shù)較少的情況(因?yàn)楣铂F(xiàn)效果差)
d. 比較Sum+, LATRE, CTTR。作者的8種啟發(fā)式護(hù)展都有不小的提升(LastFM最小),證實(shí)了利用預(yù)先已知標(biāo)簽和描述度量的作用。
e. 新啟發(fā)思想中,LATRE+wTS在大多數(shù)情況最好。在DP確定下,LATRE通常好于Sum+;DP變時(shí),wTS最好,其實(shí)是wTF,TS。
f. L2R中,兩種方法都有提升,但提升幅度有限,觀察發(fā)現(xiàn),GP和SVMRank主要利用的還是LATRE+wTS的metrics,GP中最常用的是Sum(c,o,3),然后是wTS,再是IFF,其它少于這些函數(shù)的25%。RankSVM中,最高權(quán)重主要還是集中于Sum,wTS。
g.盡管L2R效果提升不明顯,但框架靈活,易于擴(kuò)展(加入新度量和tag recommender問(wèn)題,如個(gè)性化)
h.對(duì)于SVMRank和GP的比較,效果好壞主要取決于數(shù)據(jù)集。
論文:Fabiano Belem, Eder Martins, Tatiana Pontes, Jussara Almeida, Marcos Goncalves. Associative Tag Recommendation Exploiting Multiple Textual Features.
Proceedings of the 34th international ACM SIGIR conference on Research and development in Information, Jul. 2011. 論文鏈接:SIGIR2011_Associative_Tag_Recommendation_Exploiting_Multiple_Textual_Features.pdf
posted @
2012-02-24 13:05 Seraphi 閱讀(692) |
評(píng)論 (0) |
編輯 收藏
大致內(nèi)容:
本文在political affilication(民主黨,共和黨), ethnicity identification(African Americans)和affinity for a particular business(星巴克)三個(gè)任務(wù)上,對(duì)user進(jìn)行二元分類(lèi)
相關(guān)參考資源:
Bing Social
Klout
Twitter's "Who to Follow"
Google's "Follow Finder"
用戶(hù)的profile可被用來(lái)自動(dòng)匹配相似用戶(hù),也可以通過(guò)profile顯式表達(dá)去推薦
GBDT(Gradient Boosted Decision Tree)
avatar 頭像
本文思想及實(shí)現(xiàn):
對(duì)用戶(hù)分類(lèi),用到兩類(lèi)信息:
(1)user-centric information(言語(yǔ)表達(dá),tweet內(nèi)容,行為,喜好)
(2)social graph information
整個(gè)系統(tǒng)架構(gòu)由兩部分組成:(1)ML(machine learning) component,用來(lái)通過(guò)user-centric information對(duì)用戶(hù)分類(lèi);(2)a graph-based updating component,包含了social graph信息,通過(guò)該用戶(hù)的社會(huì)網(wǎng)絡(luò)分布對(duì)分類(lèi)信息做出更新
ML部分:使用GBDT Framework作為分類(lèi)算法,GBDT可解決過(guò)擬合問(wèn)題,且有smaller resulting models and faster decoing time的特點(diǎn)[7]。
(1)profile:選取基本profile信息:a.用戶(hù)名長(zhǎng)度;b.用戶(hù)名中字母數(shù)字個(gè)數(shù);c.用戶(hù)名中不同的大小寫(xiě)形式;d.頭像使用;e.粉絲數(shù);f.關(guān)注者;g.粉絲/關(guān)注比例;h.創(chuàng)建帳戶(hù)日期;i.bio;j.location。其中bio使用正則表達(dá)式進(jìn)行匹配抽取信息
(2)Tweeting bahavior:判斷information source/seeker:a.tweet數(shù);b.retweet數(shù)/比例;c.reply數(shù)/比例;d.平均hashtag數(shù);e.URLs per tweets;f.fraction of tweets touneated;g.tweets時(shí)間間隔,標(biāo)準(zhǔn)差;h.一天的平均tweet數(shù)和標(biāo)準(zhǔn)差
(3)Linguistic Content Feature:使用LDA,從BOW中抽取
a.proto-word(typical lexical expression in a specific class):本文通過(guò)概率模型抽取pro-word
b.proto-hashtag:與proto-word類(lèi)似
c.Generic LDA:假設(shè)a user can be represented as a multinomial distribution over topics
d.Domain-specific LDA:GLDA得到粗粒度topic,DLDA細(xì)粒度
e.sentiment words:對(duì)于某term建立窗口,對(duì)其周?chē)鷑個(gè)詞語(yǔ)進(jìn)行考查,判斷用戶(hù)傾向。
(4)社會(huì)網(wǎng)絡(luò)特征:
a.Friend Accounts
b.Users whom to the target user replyed and retweeted
基于圖的標(biāo)簽更新:
這個(gè)步驟基于社會(huì)關(guān)系網(wǎng)絡(luò)用來(lái)對(duì)機(jī)器學(xué)習(xí)所給出錯(cuò)誤標(biāo)注做以糾正。在這個(gè)實(shí)驗(yàn)中,作者僅僅選取了friend accouts一項(xiàng),因?yàn)樗钅鼙硎総arget user的興趣和傾向。實(shí)驗(yàn)在target user的所有friends都運(yùn)行了ML算法,將其所有朋友帳號(hào)都賦予了一個(gè)標(biāo)簽,然后用朋友帳號(hào)的標(biāo)簽來(lái)對(duì)target user的標(biāo)簽做出評(píng)判及更正。
final_score(ui)=α*ML+(1-α)*label updating
實(shí)驗(yàn)分析:
作者分別將α設(shè)為0,1和0.5進(jìn)行實(shí)驗(yàn)。最后實(shí)驗(yàn)表明,ML本身就可以取得較高的結(jié)果,而標(biāo)簽更新算法本身則效果不佳。對(duì)于political affinity,標(biāo)簽更新作用較大,對(duì)整體結(jié)果有著較好(比起其它兩個(gè)task)但仍然是很微小的提升。Starbuck標(biāo)簽更新算法也有用,則非常小。而對(duì)于Ethnicity來(lái)說(shuō),標(biāo)簽更新算法還不如沒(méi)有,反而起到了負(fù)作用。作者分析原因,在于social connection對(duì)于政治有著較大的幫助,而對(duì)于種族和商品這種個(gè)性化的東西,作用不是很大。
在實(shí)驗(yàn)中,作者使用了兩個(gè)base line:
B2:在ML階段只使用了profile和tweeting bahavior兩項(xiàng)特征(這兩項(xiàng)特征容易取得)
B1在不同實(shí)驗(yàn)中,有著不同含義:
a.政治傾向上:B1把在bio field中提到的對(duì)民主/共和黨的傾向作為分類(lèi)依據(jù),進(jìn)行分類(lèi)
b.種族上:B1根據(jù)用戶(hù)的頭像來(lái)對(duì)其進(jìn)行種族分類(lèi)。
c.星巴克:B1把所有在bio field提到星巴克的用戶(hù)分類(lèi)為星巴克粉絲。
結(jié)果表明:B2總體性能不如本文所提到的系統(tǒng),說(shuō)明lingistic特征和社會(huì)網(wǎng)絡(luò)特征對(duì)于結(jié)果有著巨大的積極影響。而B(niǎo)1有著極高的準(zhǔn)確率,但召回率太低,也沒(méi)有太大的實(shí)用價(jià)值。
工具:
Opinion Finder[25]
論文:
Marco Pennacchiotti, Ana-Maria Popescu:Democrats, Republicans and Starbucks Afficionados: User Classification in Twitter.
Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining, Aug. 2011
論文鏈接:
KDD2011_Democrats_republicans_and_starbucks_afficionados_user_classification_in_twitter.pdf
posted @
2012-02-18 13:23 Seraphi 閱讀(685) |
評(píng)論 (0) |
編輯 收藏
大致內(nèi)容:
這篇論文的任務(wù)是對(duì)twitter上的短文本進(jìn)行分類(lèi),分到預(yù)先定義的5個(gè)類(lèi)別中:news,event,opinions,deal,PM(private message)。該論文摒棄傳統(tǒng)的BOW特征模型而別出心裁地選取了8個(gè)特征(8F):
1個(gè)是名詞性特性:用戶(hù)。這個(gè)特征是8F特征中最為主要的特征,因?yàn)樗从沉诵畔⒃吹闹饕?lèi)別特征。如,企業(yè)的用戶(hù)和個(gè)人用戶(hù)通常有著不同的用戶(hù)行為,這個(gè)特征可以限定該用戶(hù)tweet的分類(lèi)范圍。
另外7個(gè)是binary feature(存在特征):
俚語(yǔ)與詞語(yǔ)縮寫(xiě)的使用:俚語(yǔ)和詞語(yǔ)縮寫(xiě)通常不會(huì)是一個(gè)新聞
time-event短語(yǔ):Event類(lèi)別的重要特征
評(píng)論性詞語(yǔ):Opinion類(lèi)重要特征
詞語(yǔ)的強(qiáng)調(diào)(大寫(xiě)或字母重要,如veeery):同上
currency和percentage標(biāo)志:如¥$%,這些都是Deal類(lèi)別的重要特征
@usrname:這是PM的重要特征,當(dāng)然也有可能是Event類(lèi)中的一個(gè)特征(participants)。
實(shí)驗(yàn)表明8F比BOW在精度上均為大幅提高。
使用工具:
weka
論文:
Bharath Sriram, Dave Fuhry, Engin Demir, Hakan Ferhatosmanoglu, Murat Demirbas:Short Text Classification in Twitter to Improve Information Filtering.
Proceeding of the 33rd international ACM SIGIR conference on Research and development in information retrieval, Jul. 2010論文鏈接:
SIGIR2010_Short_Text_Classification_in_Twitter_to_Improve_Information_Filtering.pdf
posted @
2012-02-18 12:32 Seraphi 閱讀(1291) |
評(píng)論 (0) |
編輯 收藏
術(shù)語(yǔ):
content-based, neighborhood-based, collaborative filtering, substitutes(相等價(jià)的商品,如可口可樂(lè)與百事可樂(lè)), complements(附加的、補(bǔ)充的商品,如ipod和ipod faceplate), listing fee上市費(fèi), flippers(who buy a low price and resell at a higher price)
大致內(nèi)容:
這篇論文的作者是e-bay的高級(jí)技術(shù)人員,主要從scale, product dimension, buy dimension, seller dimension, buyer seller handshake這幾個(gè)方面和5Ws(what, where, when, why, who)和1H(how)來(lái)說(shuō)明E-Bay推薦的關(guān)鍵問(wèn)題和難點(diǎn)。
同樣的商品,可能有多種情況(有無(wú)盒,有無(wú)標(biāo)簽,有多新/舊)。而對(duì)于買(mǎi)家,也分為casual shopper, impulsive shopper, value-driven shopper, collector filppers
what:對(duì)于用戶(hù)不同的瀏覽情況,給予不同的推薦。例如:用戶(hù)U1和U2都瀏覽了某個(gè)item-i1。用戶(hù)U1反復(fù)瀏覽多次i1,并將其加入購(gòu)物車(chē)。用戶(hù)U2則看了一眼就再也沒(méi)有訪問(wèn)i1的頁(yè)面。對(duì)于這兩位用戶(hù),推薦系統(tǒng)所做出的推薦不能是相同的。
where:在用戶(hù)瀏覽的不同網(wǎng)頁(yè)/階段(search,bid,check-out,post-transaction)所做的推薦不同。
when:用戶(hù)在購(gòu)買(mǎi)商品后,經(jīng)過(guò)不同的時(shí)間,給予不同的推薦(例如:對(duì)于一個(gè)剛買(mǎi)相機(jī)一天的用戶(hù),推薦系統(tǒng)應(yīng)該推薦其附件(包),對(duì)于一個(gè)買(mǎi)了相機(jī)30多天的用戶(hù)來(lái)說(shuō),推薦系統(tǒng)更應(yīng)為其推薦一些關(guān)于相機(jī)保養(yǎng)的商品)
why:推薦系統(tǒng)給出推薦原因,如60%的用戶(hù)買(mǎi)了這個(gè)商品也買(mǎi)了那件
who:不同的用戶(hù)類(lèi)型給予不同的推薦。對(duì)于老手,推薦并非有太大功效,而對(duì)于新用戶(hù),則作用最大。
how:推薦時(shí)會(huì)有大規(guī)模,超稀疏的user-item矩陣,用SVD進(jìn)行降維分解。另一種方案是聚類(lèi),可用K-means和層次聚類(lèi)的方法。
論文:
Neel Sundaresan:Recommender Systems at the Long Tail
.
Proceedings of the fifth ACM conference on Recommender systems, Oct. 2011論文鏈接:
Recsys2011_Recommender_System_at_the_Long_Tail.pdf
posted @
2012-02-18 11:49 Seraphi 閱讀(556) |
評(píng)論 (0) |
編輯 收藏
術(shù)語(yǔ):
followee/friend 用戶(hù)關(guān)注的對(duì)象(即新浪微博中的“關(guān)注”)
follower 關(guān)注用戶(hù)的對(duì)象(即微博中的“粉絲”)
collaborative filtering 協(xié)同過(guò)濾
大致內(nèi)容:
本文作者及其團(tuán)隊(duì)對(duì)twitter用戶(hù)推薦做了深入研究,并制作了一個(gè)在線的twitter用戶(hù)推薦的應(yīng)用。并以profile推薦和search推薦兩種方式呈現(xiàn)給用戶(hù)。
profile推薦即用戶(hù)不需要自己輸入查詢(xún),該應(yīng)用將根據(jù)用戶(hù)的profile自動(dòng)生成查詢(xún),來(lái)查找相關(guān)用戶(hù)。
search推薦即用戶(hù)自行輸入查詢(xún),來(lái)尋找自己感興趣的用戶(hù)。
本文列舉了9種生成用戶(hù)profile的策略:
S1:由用戶(hù)U本身的tweets
S2:由用戶(hù)U的followees的tweets產(chǎn)生
S3:由用戶(hù)U的followers的tweets產(chǎn)生
S4:由S1,S2,S3的并集產(chǎn)生
S5:由用戶(hù)U的followee ID產(chǎn)生
S6:由用戶(hù)U的follower ID產(chǎn)生
S7:由S5,S6并集產(chǎn)生
S8:結(jié)合S1-S7,得分函數(shù)依賴(lài)于S1和S6
S9:結(jié)果S1-S7,得分函數(shù)基于推薦列表中用戶(hù)位置。
※以上方法中,S1-S4為content based,S5-S7是collaborative filtering。
然后用lucene對(duì)這9種策略分別建立索引,進(jìn)行實(shí)驗(yàn)。其中,基于內(nèi)容的策略中,采用tf-idf權(quán)值。
評(píng)價(jià)指標(biāo):
1、①Precision:即推薦列表與已有followee重復(fù)的百分比,S5-S7(Collaborative filtering)好于S1-S4(content based),S3高于S2,Precision隨Recommendation List Size增大而降低
②Position:相關(guān)用戶(hù)的位置因素亦很重要,在此,基于內(nèi)容方法略好于協(xié)同過(guò)濾。
2、以上兩個(gè)指標(biāo)均為脫機(jī)(offline)評(píng)價(jià)指標(biāo),實(shí)際上即便是followee中沒(méi)有存在的那些出現(xiàn)在Recommendation List中的用戶(hù),也并非不相關(guān),有很多為potential followees。因此,本文還做了一個(gè)live-user trial,選取了34位參與者參加實(shí)驗(yàn),結(jié)果30個(gè)推薦列表中,平均采取6.9人,且位置主要集中在推薦列表的top10。另外,search中(31名參與)結(jié)果并不如profile,平均4.9人采納。作者分析了這個(gè)原因,在于search中用戶(hù)所提供信息遠(yuǎn)小于profile中的信息,因此效果不如profile推薦。
論文:
John Hannon, Mike Bennett, Barry Smyth:Recommending Twitter Users to Follow Using Content and Collaborative Filtering Approaches.
Proceedings of the fourth ACM conference on Recommender systems, Sep. 2010論文鏈接:
2010_RECSYS_RecommendingTwitterUsers.pdf
posted @
2012-02-18 11:28 Seraphi 閱讀(675) |
評(píng)論 (0) |
編輯 收藏
大致內(nèi)容:
對(duì)twitter構(gòu)成及使用進(jìn)行了簡(jiǎn)要的說(shuō)明,并通過(guò)實(shí)驗(yàn)證明,在某一領(lǐng)域中,根據(jù)粉絲數(shù)推薦的列表最受歡迎。另外,比起無(wú)領(lǐng)域知識(shí)和twitter經(jīng)驗(yàn)的用戶(hù),具有領(lǐng)域知識(shí)和熟練使用twitter的用戶(hù)會(huì)傾向于相關(guān)領(lǐng)域list數(shù)量。
實(shí)驗(yàn)方法:
用twitter API爬取twitter,對(duì)用戶(hù)分析(粉絲數(shù)、list數(shù)、相關(guān)list數(shù)),做在線survey來(lái)分析結(jié)果。
論文:
Wit Krutkam, Kanda Runapongsa Saikeaw, Arnut Chaosakul: Twitter Accounts Recommendation Based on Followers and Lists
論文鏈接:
jictee2010_Twitter_Accounts_Recommendation_based_on_followers_and_lists.pdf
posted @
2012-02-18 11:04 Seraphi 閱讀(143) |
評(píng)論 (0) |
編輯 收藏