??xml version="1.0" encoding="utf-8" standalone="yes"?>亚洲综合色区中文字幕,国产99久久亚洲综合精品,亚洲国产精品无码久久一区二区http://m.tkk7.com/chenlb/category/33445.html好记性不如烂W头!zh-cnThu, 31 Jul 2008 09:29:52 GMTThu, 31 Jul 2008 09:29:52 GMT60推荐引擎Q从搜烦到发现[转蝲]http://m.tkk7.com/chenlb/articles/219075.html浪?/dc:creator>浪?/author>Thu, 31 Jul 2008 08:07:00 GMThttp://m.tkk7.com/chenlb/articles/219075.htmlhttp://m.tkk7.com/chenlb/comments/219075.htmlhttp://m.tkk7.com/chenlb/articles/219075.html#Feedback0http://m.tkk7.com/chenlb/comments/commentRss/219075.htmlhttp://m.tkk7.com/chenlb/services/trackbacks/219075.html

搜烦是你明确地知道自p找什么东西时所做的事情Q而发现是你ƈ不明地知道一些好东西存于世上的时候,q些东西d扑ֈ了你?nbsp;

?#8220;发现”Z要功能的|站正如雨后春笋般在互联|上崭露头角。许多公司推Z能够帮助消费者找到新|站、新q或者新朋友的推荐功能——不想要什么,M联网上都可以发现那些你闻所未闻却又注定会一见钟情的东西?

q种功能q不是互联网时代的专利。早在互联网出现之前Q在那些用钢{؜凝土搭徏h的小店面或者大卖场里,个体业主们就已经在靠自己敏锐的目光和三寸不烂之舌Q根据你的个性特Ҏ货架上的商品源源不断地放q你的购物篮?nbsp; 

走进M一条商业街上的某间服饰专卖店,露Z点购物的們֐Q导购h员就会走到跟前,指着不远处说Q?#8220;那款是最q刚上架的新品,看v来与你的气质比较搭配”。这时你很可能会l箋和导购h员交谈,多透露一些自己关于衣着打扮的看法,让他或她l箋l出Q帮助选中最心满意的款式?

q就是我们所说的“?#8221;街。在走出安的时候,你的脑中或许有买衣服的计划,却ƈ不知道应该买哪种品牌、款式、颜艌Ӏ布料、h位的商品。走q商店之后,֮面对未知的货架开始了自己?#8220;发现”之旅Q而商店向֮提供?#8220;推荐”机制随即开始运作——虽然在多数情况下,你ƈ不会意识到它的存在?

我们不仅仅是在买商品Q我们还和商品紧紧地捆绑在一赗我们和它们之间存在着千丝万缕的联pR看看架上收藏的无数q、iTunes播放器里的曲目列表、h在橱柜里那些用过的手机,从每一样东西n上都可以看出来——你是怎样的一个hQ或者说Q你x为怎样的一个h?

每个人都通过所购买的东西把内在的自己呈现出来。从另外一个角度说Qh们每天都把个性穿在、戴在、挂在n上,L或无意、直白或含蓄地告诉外界:“喏,q就是我?#8221;

在真实的世界中,我们通过外表所蕴含的信息以及所处的环境和既有的l验对他人做出判断。这U直觉通常情况下十分管用而且立竿见媄Q但是有时候它却会qQ毕竟感觉在很多时候是说不准的。但是如果换C联网上,qg事情׃变得Ҏ和清晰得多?

“发现”在网上的兴v

日复一日,消费者都会在互联|上以数字化的Ş态留下自q心得体验。比如豆瓣网上有一半观众觉得《满城尽带黄金甲》看着“q行”Q两成观众打?#8220;力荐”Q比如大众点评网的用户对北京川办厅的打分是Q口?6、环?3、服?2Q又比如Z在网上对各张专辑做出的评论、脓上的标签。每当用L下这L标记Q除了能够让其他人知道这些东西看h如何、听h怎样Q还在不知不觉地向外界描q自q口味?

对于那些可以获得、储存ƈ且分析这些信息的公司而言Q商机大得惊人。这些公司比传统商店里的D人员更了解你Q更q一步说Q指不定比你的闺中密友更清楚你的兴趣所在。这些公司可以精准地描绘你的口味——在专家的帮助下Q他们可能比你还更容易说清你自己属于哪类人群——以此判定你最可能会在现有的品选项中买下什么。这些在q去听v来像“W六?#8221;的东西,现在正以1?体被保存在网l服务器上?

对于那些以推荐功能ؓ核心的网站来_他们再清楚不q地知道Q互联网正在从搜索的时代q入发现的时代。两者的区别在哪里呢Q搜索是你明地知道自己要找什么东西时所做的事情Q而发现是你ƈ不明地知道一些好东西存于世上的时候,q些东西d扑ֈ了你?

在搜索领域,胜负已经非常明显——在国外QGoogle遥遥领先Q在国内Q百度一枝独U。但是,L到目前ؓ止,q没有哪个推荐引擎是当之无愧的市场领D?

建造个性化的发现机刉要对目前|上所有的表述、分cd评h方式q行深入研究Q这l非易事。但是如果有公司可以把这L东西做到手机上,那么Q这L发现工具不仅仅可以改变营销Q甚x个商业社会?#8220;推荐pȝ会成ؓ接下来十q中最重要的革C一?#8221;曄?0q代中期开发出W一Ҏ荐引擎的c_苏达大学计算机科学系教授U翰·里d(John Riedl) 说过Q?#8220;C会化网l将会被q些pȝ所驱动?#8221;

亚马逊网l商?Amazon.com) 很早意识到了一个优U的推荐系l可以带来什么,直到现在依然是同cȝ站效仿的对象。亚马逊通过数据挖掘法和比较机制将用户的消费偏好与其他用户q行ҎQ借以预测用户可能感兴的商品?

q样的推荐系l徏立在对商品深入了解的基础之上。看看亚马逊网l书店上的书c和影音制品Q即便是再偏门的品种Q他们也被管理员赋予了多U类?Genre)和关键词(Keyword)Q而且用户q可以ؓ它脓上自׃意的标签(Tag)?

但是亚马?#8220;相关图书”?#8220;相关q”的推荐机制依然没有做到够的个性化Q它看v来更像是一个固执己见的推销员,而非熟识q且值得信赖的小店老板。亚马逊的pȝ們֐于向用户推荐那些显而易见的的相关品,却对用户~Z更深入的了解Qƈ因h而异地推荐商品。新一代的发现型网站正在I补这斚w的缺失,搞清楚用户ؓ什么选择了某些商品,为用户也贴上复杂的属性标{?

Z建造更好的推荐pȝQ美国最大的DVDU赁|站Netflix讄?00万美元的奖金Q准备奖q可以让推荐机制性能提高10%的h。在q个竞赛公布之前QNetflix负责推荐pȝ的副总裁吉姆·贝内?(Jim Bennett) 曄怀疑是否能够有人在十年之内完成q个目标Q但他也坚持Q这个目标确实值得公司付出100万美元。但是在五周之后Q已l有37人提交了改进ҎQ其中有两名选手成W获奖标准ƈ不遥q?
两种“发现”

而电影推荐网?#8220;What to Rent” (意ؓ“U点什?#8221;) 已经在发现机制的完善之\上迈Z更大的步伐。该|站的两位创始h马修·库尔?(Matthew Kuhlke) 和亚?#183;盖特?(Adam Geitgey) 对电影极为痴qP他们俩用自己在电影方面的知识和分cLv量电ql验来武装自q电媄数据库?

而同Ӟ他们让初ơ光临的用户回答一pd随机的问题,有的甚至和电qh关系不大Q比如说Q?#8220;你最喜好哪一cM验——精、智力还是n体上的?”或?#8220;l你多少钱才能让你在下半辈子里每天都I一些滑E古怪的装束Q?#8221;他们通过心理试来了解用P以推荐合适的电媄?#8220;看一部电q时候,你就与这部电׃生了互动。这U互动和你与人打交道q没有多区别?#8221; 库尔克说Q?#8220;你都是在建立一U关pR?#8221;

“工欲善其事,必先利其?#8221;。换到发现型|站上,那就是想要推荐给用户最有效的结果,那么必d了解自己的用戗如何了解自q用户Q成为此cȝ站首要解决的问题?

昄Q?#8220;What to Rent”|站两位创始人的敏锐目光l他们帮上了大忙。在|站上,他们用许多问题来了解用户的特质,q且推荐DVD。在现实生活中,他们会去公司附近的饭店里 挑战一些更有难度的推荐方式。他们随机地挑选一些hQ不和他们进行交谈,只是Ҏ对行ZD止的观察来推他们最喜欢的某部电影?

他们会在人群中选中端水送饭兼收盘子的伙计,然后开始描q这个观察对象:“破烂的牛仔裤、金属手镯、各部位有若q纹w?#8221;Q?#8220;20岁以上接q?0?#8221;Q?#8220;在一个年d的餐馆里工作”Q?#8220;在这里的q轻人很多没有念完高中,因ؓ他们很难集中注意力,但是却花了大部分旉用来阅读一些由Zhg家——比如尼?#183;凯夫 (Nick Cave) ——撰写的哲理书籍”。由此,库尔克认为《星x队?Starship Troopers) q样有点d反政府情节又有点刺激动作场面的电影最适合他的口味。果Ӟ他们从对方嘴里得到这个答案?


q种了解内容和用L特质Q送上合适品的做法Q被UCؓ“Z内容的过?#8221; (Content Based Filtering) 。正?#8220;What to Rent”需要在事前对用户做一个问卯查,他们同样要对内容产品贴上各种门类的标{ƈ且写入数据库??

在这cd现型|站中,国内用户最熟悉的是音乐推送网?#8220;潘多?#8221; (Pandora) 。只要在“潘多?#8221;|站首页的播攑֙中输入用h喜欢的歌手名字或者歌曲标题,|站׃自动建立一个网l电収ͼ源源不断地播放最W合用户口味的曲目。用户喜Ƣ或者不喜欢一首歌Q可以点ȝ应的反馈按钮Q让pȝ更明白自q喜好?

q种有趣的体验徏立在惊h?#8220;音乐基因工程”(Music Genome Project)基础之上?5位音乐分析师——其中大部分拥有音乐斚w的学位——以每月15000首歌的速度完善“潘多?#8221;的曲目数据库Q每首歌都拥?00字左右的详细介绍。在播放每一首歌的时候,点击“Z么选择q首?#8221;的选项Q就可以得知目前播放的曲目与用户输入曲目的所有相g处?

而随着C会化网l?Social Network) 的大规模兴vQ另一U被UCؓ“协同qo”(Collaborative Filtering) 的推荐方式也得到了越来越q泛的应用。如果说“Z内容的过?#8221;可以被视作由机器完成的推荐,那么“协同qo”可以被看成׃h完成的推荐?

?#8220;协同qo”推荐机制为核心,|站q不需要做出如?#8220;What to Rent”?#8220;性格—?#8221;匚wQ而只需要了?#8220;用户都在同哪些hq行交往”?#8220;用户加入了哪些组?#8221;?#8220;用户都在看谁的页?#8221;q样的问题,然后Ҏ“物以c聚、h以群?#8221;的思\为用h荐他的伙伴都感兴的事物?

国内以图书推荐v家的“豆瓣”是q方面的代表。从建站以来Q豆瓣就只是提供l用户关于图书、电影和音乐的基本信息,而不需要由|站员工对用h者品做?#8220;贴标{?#8221;式的逐一了解。用户在“豆瓣”上发现新的品,完全以他们参与的组和关注的对象作ؓ切入点,在网站上的参与度高Q发现的效果也就好?

无论从用戯是服务提供者的角度出发Q这两种推荐方式都有各自明显的优劣。如果采?#8220;Z内容的过?#8221;Q那么在完成内容和用户互相匹配的q程中,可能出?#8220;读窄”?#8220;听窄”?#8220;看窄”的问题,提供的内容完全与用户兴趣点相dQ而没有发散?

“协同qo”在很大程度上避免了这个问题,但是他需要用戯C定数量之后才能发挥出网站创预想的效果Q这U?#8220;|络效应”使得同一市场上的后来者很难找到切入的Z。而用户一旦不能得?#8220;好处”Q可能迅速离去,而来不及?#8220;利他”的后话。■


转蝲Q?font face="Comic Sans MS">http://blog.csdn.net/java060515/archive/2007/04/18/1568658.aspx

]]>
推荐引擎机制的前提、基本方式和典型应用[转蝲]http://m.tkk7.com/chenlb/articles/219074.html浪?/dc:creator>浪?/author>Thu, 31 Jul 2008 08:05:00 GMThttp://m.tkk7.com/chenlb/articles/219074.htmlhttp://m.tkk7.com/chenlb/comments/219074.htmlhttp://m.tkk7.com/chenlb/articles/219074.html#Feedback0http://m.tkk7.com/chenlb/comments/commentRss/219074.htmlhttp://m.tkk7.com/chenlb/services/trackbacks/219074.html?span>荐机制的两种方式Q?、基于用戯为;2、基于品基因;推荐机制建立的前提:1、用戯为数据记录;2、品特性基因构成;

1、基于用戯为:案例amazonQ亚马逊)

亚马逊的推荐pȝ是程序自动化和用L兌物信息天才集合的l典之作。亚马逊花了十几年的时间徏立和完善了这个系l。这个系l基于品和相关用户的巨大数据库Q记录的信息包括你在q去几年或几分钟内做q什么?

所有推荐都Z用户个h行ؓQ加上商品本w,或者是其他用户在亚马逊的zd。不是因ؓ你以前购买过相关产品Q还是因为其他很多用户都喜欢Q亚马逊每推荐l你一件商品,都增大你把它放进你的购物{的可能?

2、基于品基因:案例pandoraQ潘多拉Q?

音乐染色体组目?推出Q目的在于把音乐解析成ؓ最基本的基因组成。它的基本想法是Q我们因为音乐的某些Ҏ喜Ƣ音乐-Q那么ؓ什么不能根据音乐的某些怼之处设计Z套推 荐系l呢Q这cL荐系l应该属于基于品的推荐。但h深刻创新意义的是Q品(音乐产品Q的怼性,通过“基因”l成来衡量?

q种“卛_满?#8221;是很难抗拒的。因为pandora 了解音乐怼性背后的因素Q它不需要了解用L好恶Q就可以把用户黏住。确实,pandora 需要把握用L口味或记忆-Q但q正是蕴藏在音乐本n的dna中了。当然pandora有时q不完美Q会播放不对用户口味的音乐。但q很发生?

拓宽联想Q音乐品的基因l适用于其他品吗Q也是_标签QtagQ是否就能代表品的基因呢?案例del.icio.us

C会化书{站中首屈一指的 del.icio.us Q见译言有关del.icio.us的译文)则采用不同的办法Q-让用戯己来鉴定、标识。这U自l织的方式相当成功,del.icio.us 很快在最初的使用者中行h。今天,del.icio.us 已经不仅仅是一个书{站-Q它q是一个新ȝ站和搜烦引擎。但del.icio.us是否也是一个推荐系l呢Q?{案是肯定的。这是一个非常简明的推荐pȝQ它指基于一个基因-Q那是一个标{?

思考:每一个网站都有自q一套ؓ用户创造体验与价值的方式Q而真正的“卛_满?#8221;又有几家能做到。尤其现在的web2.0cd|站都首先标?#8220;用户体验”Q在copy一个成功模式之后,以ؓ同样完整的copy了相同的“用户体验”的自我感觉其实是错误的。比如说Q我们很多的diggcR书{新网站,q没有发挥自q创造力Q甚x本都没有l合国情。或许未来下一个更好的pȝ是完地用戯Z产品基因相结合的推荐模式,不管是商务网站的产品推销Q还是社会化|站的服务,因ؓQ?

一个出色的推荐机制不光对netflixQ对其他|络企业也非帔R要。这是因为用L|上zd分ؓ两类Q搜索和览。当消费者明知道她惌什么的时候,Ҏ索。但当她不太清楚惌什么的时候,Ҏ览。浏览活动ؓ推荐pȝ带来了绝好的Z。因为当用户没有集中注意力在扑֥惌的东西时Q她对外来的是敞开的?

在浏览过E中Q用L注意力(和他们的钱)Q都{着你去抓住。通过向用户展C有吸引力的东西Q网站可以交易成功的可能最大化。所以如果网站能增加l用h供好推荐的几率,p赚更多钱。显然这不是一个容易解决的问题Q但解决q个问题带来的好处是巨大的?/span>

 
转蝲Q?a >http://blog.csdn.net/java060515/archive/2007/04/18/1568789.aspx

]]>
|站推荐机制中的艺术、科学与商务问题[转蝲]http://m.tkk7.com/chenlb/articles/219073.html浪?/dc:creator>浪?/author>Thu, 31 Jul 2008 08:03:00 GMThttp://m.tkk7.com/chenlb/articles/219073.htmlhttp://m.tkk7.com/chenlb/comments/219073.htmlhttp://m.tkk7.com/chenlb/articles/219073.html#Feedback0http://m.tkk7.com/chenlb/comments/commentRss/219073.htmlhttp://m.tkk7.com/chenlb/services/trackbacks/219073.html    |站推荐机制是电子商务或内容|站的核心功能之一。例如你在一个网站买了一本书后,|站会推荐其他你可能会感兴趣的书。这被认为是亚马逊等电子商务巨头成功的关键。本文对几个的推荐系l进行了较透彻的分析?/p>

2006q?0月,Netflix搞了一ơ不d的有奖竞赛。这家网上DVDU赁公司开出奖金一百万元Q奖q能把他们|站的品推荐机制提?0%的h。Netflix 以富有创新精和闯劲著称。而一百万元的奖金对于这样一家公司来_其实q不象听h那么多?br />

有奖竞赛q在q行当中Q?#8220;臛_要进行到2011q?0??#8221;Q。所以这是一场炒作活动还是希望花钱q行研究Q我们还不得而知。而对Netflix来说Q更好的推荐机制是必不可还是锦上添花?今天QNetflix正面对从沉睡中醒来的巨hBlockBuster的挑战,因此它必然要L制胜的先机。出色的推荐机制会留住老用P吸引新用戗比如当一个用戯DVDӞpȝ会推荐给?她可能会喜欢的另一部电影。这增加了q个用户回来再租DVD的可能?br />

览与推?/span>


一个出色的推荐机制不光对NetflixQ对其他|络企业也非帔R要。这是因为用L|上zd分ؓ两类Q?span>搜烦?span>览。当消费者明知道她惌什么的时候,Ҏ索。但当她不太清楚惌什么的时候,Ҏ览。浏览活动ؓ推荐pȝ带来了绝好的Z。因为当用户没有集中注意力在扑֥惌的东西时Q她对外来的是敞开的?br />
在浏览过E中Q用L注意力(和他们的钱)Q都{着你去抓住。通过向用户展C有吸引力的东西Q网站可以交易成功的可能最大化。所以如果网站能增加l用h供好推荐的几率,p赚更多钱。显然这不是一个容易解决的问题Q但解决q个问题带来的好处是巨大的。推荐的几种方式如下Q?br />

  • 个性化的推荐-Q根据用戯d|站的行行推?
  • C会化推荐-Q根据类似用戯d|站的行行推?
  • Z产品的推荐-Q基于品本w的Ҏ进行推?
  • 以上三者的混合


我们现在通过实例详述上述方式。包括老牌|站如亚马?AmazonQ以及新U如PandoraQ译者:一个收听网上音乐的站点Q和del.icio.usQ译者:著名的社会化书签|站Q?br />

亚马逊-Q推荐之?/span>


亚马逊被q泛认ؓ是网上购物行业的领袖Q特别是推荐机制的用。过d几年_该公司投入了大量金钱和脑力开发推荐机Ӟ来促使用h多地购物Q-包括对你览历史、购买历Ԍ以及其他用户购买数据的分析。让我们看看亚马逊推荐机制的几个斚w。下面是登陆到我的亚马逊帐户后|页昄的主要部分:



Q译者:上图抬头?#8220;消费者浏览了qg商品后买了什么?”下面是三件商品:52%的消费者买了你正在看的q套衬衣Q?9%C另一U款式;5%C灰色的那U)

q部分是C会化推荐。注意,非常量化的分析,l我一个基于数据统计的理由Z么我应该买这套衬衣。而同时这又是个性化的推荐,因ؓ它基于我刚刚点击查看的品?br />


Q译者:上图抬头?#8220;Z准备的新?#8221;。下面是几本书以及链?#8220;Z么我们推荐这本书l你Q?#8221;Q?br />
q一部分?#8220;Z产品的推?#8221;Q具体说是新书推荐。点?#8220;Z么我们推荐这本书l你Q?#8221;的链接会昄我的购买历史。因此这同时也是个性化推荐Q-Z我过去行为的推荐?br />
q一上有其他四个部分采用上q推荐机制的l合。我们用下表概括Q?br />
亚马逊个性化推荐pȝ
 
你的览历史 你的购买历史
实际览商品 C品(Z产品的推荐)
相关商品Q基于品的推荐Q?/td> 相关商品Q基于品的推荐Q?/td>
别h购买的(C会化推荐) 别h购买的(C会化推荐)

很自Ӟq个pȝ是对U和覆盖全面的。所有推荐都Z用户个h行ؓQ加上商品本w,或者是其他用户在亚马逊的zd。不是因ؓ你以前购买过相关产品Q还是因为其他很多用户都喜欢Q亚马逊每推荐l你一件商品,都增大你把它放进你的购物{的可能?/p>

越亚马?/h3>

亚马逊的推荐pȝ是程序自动化和用L兌物信息天才集合的l典之作。亚马逊花了十几年的时间徏立和完善了这个系l。这个系l基于品和相关用户的巨大数据库Q记录的信息包括你在q去几年或几分钟内做q什么。其他新公司如何与之竞争呢?

Z意料的是Q有办法竞争。答案来自与|络购物没什么关pȝ学科Q-遗传学。如你所知,遗传学研IDNA片段Q-基因Q如何承载媄响hcȝ性和行ؓ的密码。比如一家h因ؓ他们有某些基因是相同的,因此长相和行为有cM之处。遗传学是一门有150q历史的学科Q在d和历史学的研I中都是一个重要工兗但遗传学一个出乎意料的应用?000q??日出玎ͼQTime Westergren和他的朋友们军_把遗传学的概念引入到音乐中?/p>

潘朵拉(PandoraQ-Q基于遗传学的推荐系l?/h3>

音乐染色体组目的推出,目的在于把音乐解析成为最基本的基因组成。它的基本想法是Q我们因为音乐的某些Ҏ喜Ƣ音乐-Q那么ؓ什么不能根据音乐的某些怼之处设计Z套推荐系l呢Q这cL荐系l应该属于基于品的推荐。但h深刻创新意义的是Q品(音乐产品Q的怼性,通过“基因”l成来衡量?br />
Q译者:上图是Pandora音乐播放器向用户解释Z么播放一首歌Ԍ“Z你告诉我们的信息Q我们播放这D音乐。因D音乐微妙地使用人声合声Q؜合了声学和电子乐器,有以人声为核心的审美特点Q音调以大调ZQ以及其他音乐基因组目中发现的怼性?#8221;Q?br />
在奋斗了几年Q分析了量的音乐后Q这个项目积累了_的数据,q推Z名ؓPandora的在|上收听音乐的服务。Pandora ׃准确的推荐和用户低成本进入(译者:指用户可以很Ҏ地就试用Pandora的服务)取得巨大成功。用户只需选一名歌手,或一首歌Q就可以建立一个用戯q电台Q播攄似的音乐?br />
q种“卛_满?#8221;是很难抗拒的。因为Pandora 了解音乐怼性背后的因素Q它不需要了解用L好恶Q就可以把用户黏住。确实,Pandora 需要把握用L口味或记忆-Q但q正是蕴藏在音乐本n的DNA中了。当然Pandora有时q不完美Q会播放不对用户口味的音乐。但q很发生?br />

很自然地我们会问Q这个基于基因的推荐方式能不能应用于其他产品Q-如书c、电影、酒、餐馆、或旅游点呢Q对于每一cM品,它的基因又由什么因素组成呢Q比如说Q对葡萄酒来_它的基因是否包括寚w的口味的描述呢:黑莓口味、土呟뀁果香型、复合型、؜合型Q等{。而书c的基因是否是描q故事情节的用语呢?如果基因真的是让某一个物体在我们头脑中生独特Ş象的因素Q对于不同的事物我们应该可以把他们的基因定义出来。其实在q去的几q间Q我们已l在互联|上做这L事了。这是“标签QtaggingQ?#8221;?/p>

Del.icio.us Q标{会成ؓ基因么?

Pandora 的初始投入是巨大的。因为成千上万的音乐需要h工来鉴定。社会化书签|站中首屈一指的 del.icio.us 则采用不同的办法Q-让用戯己来鉴定、标识。这U自l织的方式相当成功,del.icio.us 很快在最初的使用者中行h。今天,del.icio.us 已经不仅仅是一个书{站-Q它q是一个新ȝ站和搜烦引擎。但del.icio.us是否也是一个推荐系l呢Q?/p>



Q译者:上图昄加了“Linux”标签的最受欢q的|页链接Q右侧是相关标签。)

{案是肯定的。这是一个非常简明的推荐pȝQ它指基于一个基因-Q那是一个标{。例如在上图中,我们看到最受欢q的加了“Linux”标签的网链接,同时q看到相关链接如“Open source Q开源YӞ”?#8220;ubuntu QLinux 操作pȝ的一个版本)”。而一个更令h兴奋的推荐系l是Z多个标签的吻合。然而由于算法还不完善,q一点的作用q不明显。但臛_Q这一功能对于Read/WriteWeb 的网(译者:原文的站点)是有效的Q在下图中,可以看到右侧昄的与 Read/WriteWeb cM的其他博客?/p>


因此Qdel.icio.us 的机制有可能发展成ؓ一个有的自助分类、组l的推荐pȝ。如果有_的用户ƈ逐步调整pȝQ用体的力量加标签的方式可以徏立v一个对书、葡萄酒、音乐同h效的推荐pȝ。前题是Q标{要准确到能够成标签对象的基因!

l论

推荐引擎是网上电子商务系l和用户体验的一个重要组成部分。网上零售商们有强烈的意愿向那些正在览的用h供推荐,以驱使他们购买。亚马逊有一套非常出色的个性化推荐pȝQ是q个领域的领先者。其他网上零售商面的问题是~Z用户信息和Y件构架不完善?/p>

最新的推荐引擎Q如受遗传学启发的Pandora和基于群体社会化标签的del.icio.us都是非常有趣的新发展。这些系l的长处在于“卛_满意?#8221;Q-不需要用h供他们的偏好和过ȝ览或消费历双Ӏ不未来如何发展,亚马逊、Pandora和del.icio.us目前展示了极其出色的推荐技术。我们向您推荐这几个pȝQƈҎ来拭目以待?br />
转蝲Q?a >http://blog.csdn.net/java060515/archive/2007/04/18/1568824.aspx



]]>
音乐八宝盒的推荐引擎模式[转蝲]http://m.tkk7.com/chenlb/articles/218996.html浪?/dc:creator>浪?/author>Thu, 31 Jul 2008 06:51:00 GMThttp://m.tkk7.com/chenlb/articles/218996.htmlhttp://m.tkk7.com/chenlb/comments/218996.htmlhttp://m.tkk7.com/chenlb/articles/218996.html#Feedback0http://m.tkk7.com/chenlb/comments/commentRss/218996.htmlhttp://m.tkk7.com/chenlb/services/trackbacks/218996.html在在U数字音乐领域中Q如何能够真正深入挖掘长价|采用d的音乐推荐模式,d助用h到符合自己口味的新音乐,成ؓ一个新的挑战和Z。八宝盒Q?a >www.8box.cnQ是一个基于音乐分享及偏好而徏立v来的SNS服务, 利用多年U篏研发的推荐引擎,8box能帮你找到可能喜Ƣ的音乐Q帮你分析出哪些用户是你的音?#8220;同好”?八宝盒通过你推荐、试听、打分、评论音乐的q程Q学习你的口呻Iq依此帮助过滤出你喜Ƣ的音乐。发现音乐的最好途径是通过你的同好。八宝盒能够Ҏ你的口味Q推荐相似的用户l你。应该说“个性化推荐引擎--IntelliProvider”是音乐八宝盒的技术基矟?/div>
 
单的来说Q?box推荐音乐的依据有三种Q?/div>
1.依靠音乐本n的属性信息判断音乐的相关性,做出推荐?/div>
2.依靠听众对这个音乐的评h和反映来推断音乐的相x,做出推荐?/div>
3.依靠分析用户的行为,发掘出用L音乐同好Q从而做出推荐?/div>
 
W一U依靠音乐本w的属性,音乐本n的信息来判定音乐。在国内的音乐网站来_音乐信息的判断基本上停留在对音乐资料的搜集上Q比如一首歌的演p、所属专辑、这首歌的音乐类型等{?box建立了庞大的音乐信息库,百万张唱片的音乐信息可以增加音乐推荐的准度?/div>
 
一个简单的例子Q喜Ƣ听朴树的《生如夏花》的人,可以推荐l他《傲慢的上尉》?/div>
 
但仅仅这栯是不_的,音乐间的兌不仅仅依靠本w的信息p完全判定的。喜Ƣ听朴树的用户不仅仅爱听《生如夏花》和《傲慢的上尉》,q可能喜Ƣ听许巍的《蓝莲花》,喜欢听《蓝莲花》的用户Q还可能喜欢听郑钧《私奔》。。。而《生如夏花》和《私奔》在音乐本n的信息上是无法直接关联的Q所以我们需要更多的途径来丰富完善推荐音乐的依据?/div>
 
于是8box引入W二U?-依靠用户的评价和反映?box在用户听音乐的时候,搜集用户的行为,引导用户Ҏ听的音乐q行打分Q评P加标{Q分析用L喜好。喜Ƣ这个音乐的人对哪些音乐q感兴趣Q通过8box自主开发的推荐pȝQ分析出比率Qؓ每个音乐d了不同的标签?/div>
 
于是《生如夏花》和《私奔》的兌顺理成章了?/div>
 
是不是来自好朋友推荐的东西更可信一点?因ؓ有了Ҏ友的了解Q朋友间的共性决定了q样的推荐更可能是你喜欢的。基于这个原理,八宝盒不仅搜集音乐的相关信息Q也搜集了用L信息Q分析每个用户之间的怼度,q向用户推荐怼度高的同好用戗随着用户在网站的操作多Q对用户的信息搜集越全面Q用戯可能扑ֈ同好。依据同好的推荐Q可以发现更׃步的音乐兌Q找到更多你喜欢但是没有听到q的音乐。同时也能找到更多志同道合的朋友?/div>
 
与其他的分nC֌一P用户可以其他用户加为好友,创徏歌迷组Q在八宝盒中叫饭?fans?。在饭团里交信息,推荐音乐Q或者上传自q音乐收藏。随着团员的增加,饭团的共享空间也会增加。在音乐八宝盒,用户可以创徏q分享自q播放列表Qƈ利用|站提供的播攑֙ƣ赏音乐。此外,q借鉴了Pandora的方式,利用音乐D功能可以从Q意一首音乐始q箋播放相关的音乐。屏q右边的动播放器不但可以保证页面切换时不间断播放歌Ԍ用户评分{操作也被集成在播放器中。音乐八宝盒全方位的推荐Q可以让用户很快扑ֈ大量喜欢的歌Ԍ八宝盒的个h电台功能Q将用户喜欢的歌曲自动作为电C间断的播放。每?4时都听自己喜欢的,不是仉事儿了。大量Ajax的用,使得很多操作变得易,大部分都能一步完成,而提CZ很温情。这个网站还与blog紧密l合了。当一个歌曲被建立的时候,同时会搜索到msn space上所有与q首歌相关的blog文章Q然后列在歌曲的下方。当Ӟ你也可以把喜Ƣ的歌曲以漂亮列表的形式加到自己的blog上,而你要做的仅仅是复制_脓八宝盒提供的一段代码?/div>
 
通过强大的推荐技术,l合|站的社会性元素,八宝盒的d的音乐推荐模式将帮助用户扑ֈ属于自己?#8221;音乐长尾”?/div>
转蝲Q?a >http://blog.csdn.net/java060515/archive/2007/04/20/1571890

]]>个性化推荐技术O谈[转蝲]http://m.tkk7.com/chenlb/articles/218979.html浪?/dc:creator>浪?/author>Thu, 31 Jul 2008 06:00:00 GMThttp://m.tkk7.com/chenlb/articles/218979.htmlhttp://m.tkk7.com/chenlb/comments/218979.htmlhttp://m.tkk7.com/chenlb/articles/218979.html#Feedback0http://m.tkk7.com/chenlb/comments/commentRss/218979.htmlhttp://m.tkk7.com/chenlb/services/trackbacks/218979.html如果说过ȝ十年是搜索技术大行其道的十年Q那么个性化推荐技术将成ؓ未来十年中最重要的革C一。目前几乎所有大型的电子商务pȝQ如Amazon、CDNOW、Netflix{,都不同程度地使用了各UŞ式的推荐pȝ。而近来以“发现”为核心的|站正开始在互联|上崭露头角Q比如侧重于音乐推荐的八宝盒Q侧重于图书推荐的豆瓣等{?/div>
 
那么Q一个好的推荐系l需要满什么目标呢Q?br /> 个性化推荐pȝ必须能够Z用户之前的口呛_喜好提供相关的精的推荐Q而且q种口味和喜Ƣ的攉必须量的需要用L力_。推荐的l果必须能够实时计算Q这h能够在用L开|站前之前获得推荐的内容Qƈ且及时的Ҏ荐结果作出反馈。实时性也是推荐系l与通常的数据挖掘技术显著不同的一个特炏V?/div>
 
一个完整的推荐pȝ׃部分构成Q行录模块、模型分析模块和推荐模块。行录模块负责记录能够体现用户喜好的行ؓQ比如购买、下载、评分等。这部分看v来简单,其实需要非总l的设计。比如说购买和评分这两种行ؓ表达潜在的喜好程度就不尽相同完善的行录需要能够综合多U不同的用户行ؓQ处理不同行为的累加。模型分析模块的功能则实C对用戯录的分析Q采用不同算法徏立v模型描述用户的喜好信息。最后,通过推荐模块Q实时的从内定w{选出目标用户可能会感兴趣的内Ҏ荐给用户。因此,除了推荐pȝ本nQؓ了实现推荐,q需要一个可供推荐的内容集。比如,对于音乐推荐pȝ来说Q一个音乐库是q样的内定w。我们对内容集本w需要提供的信息要求非常低,在经典的协同qo法下,内容集甚臛_需要提供IDp够。而对于基于内容的推荐pȝ来说Q由于往往需要对内容q行特征抽取和烦引,我们׃需要提供更多的领域知识和内容属性。这U情况下Q还是拿音乐举例Q歌手、流z之cȝ属性和音频信息成为必需的内定w信息?br />
q今为止在个性化推荐pȝ中,协同qoQCollaborative FilteringQ技术是应用最成功的技术。目前国内外互联|上有许多大型网站已l应用这Ҏ术ؓ用户更加的推荐内宏V如果你惌研究协同qoQ一定不能错qMovieLensQ?a >http://movielens.umn.edu/Q。它是协同过滤最著名的研I目之一?/div>
 
W一代的协同qo技术,又被UCؓZ用户QUser-basedQ的协同qo。基于用L协同qoQ基本原理是Z用户行ؓ选择的相x。用L行ؓ选择q里指的是下载、购买、评L{能够显式或者隐式体现出用户喜好的行为。在一个典型的Z协同qo技术的推荐pȝ中,输入数据通常可以表述Z个m×n 的用户内容矩阵RQm是用hQn是内Ҏ。矩늚g内容的类型有养I通常p录模块决定。如果内Ҏ|上书店中的书,则矩늚值可以表C用戯C否,例如1表示购买Q?表示没有购买Q或者表C用户对它的评h有多高,q样的评价值就可以有几个等U,比如常见??U评价制?/div>
 
Z用户的协同过滤,通过比较目标用户的一pd行ؓ选择和其他用户之间的怼性,来识别出一l相互具有类似喜好的用户Q又可以UCؓ“同好”。一旦系l能够识别一个用L同好用户Q就能够他们最感兴的内容作ؓ当前用户的推荐结果推荐给q个用户。也是_以前的行为选择与你怼的用P在以后的行ؓ中很可能也会和你怼。因此将q些用户做ؓ基准来向你推荐内宏V?/div>
 
协同qo的核心问题是L与目标用户兴相q的一l用戗这U相似用户通常被称为最q邻居(Nearest NeighborQ。用户之间的怼度是通过比较两个用户的行为选择矢量得到的。目前,比较行ؓ选择矢量的相似度计算Ҏ有许多种Q比较经典的法包括泊松相关pLQPerson Correlation CoefficientQ和余u怼性(Cosine-based SimilarityQ?/div>
 
“最q邻?#8221;产生后,我们p够计得到用h可能感兴的内容集(也叫做TopN推荐集)。ؓ了得到推荐集Q分别统?#8220;最q邻?#8221;中的用户对不同内容的兴趣度,取其中排在最前面的内容作为推荐集。下面是一个简化的CZQ假如用户张三有两个同好Q李四和王五?/div>
 
张三喜欢看电影AQ?/div>
李四喜欢看电影AQBQC和DQ?/div>
王五喜欢看电影AQBQDQE和FQ?/div>
 
q样Q推荐系l就能够qo出相似用户都喜欢的电影B和D作ؓ张三最可能也会喜欢的电影推荐给张三?/div>
 
Z用户的协同过滤技术在个性化推荐pȝ中获得了极大的成功,但它有自w的局限性。推荐集的生方式意味着一个内容只有已l被用户选择Q购乎ͼ后才有机会被推荐l其他用戗对于一个网上书店来_C架的书因没有被相当数量的用户购买或者评L记录Q便很少有机会被用户?#8220;最q邻?#8221;{选进入推荐集。这个问题,也被UC为协同过滤的“冷启?#8221;问题?/div>
 
此外Q因用L怼度时Q是通过目标用L历史行ؓ记录与其他每一个用L记录相比较得出的Q所以对于一个现实的推荐pȝ来说Q扩展性将成ؓ非常严重的问题。设想一下,对于一个拥有上百万用户的网站来_每计一个用户都涉及到上百万次的比较,更不要说其中会带来的大量数据库IO操作的开销?/div>
 
于是W二代基于内定wQItem-basedQ的协同qo技术就产生了。与Z用户的技术不同的是,q种Ҏ比较的是内容与内容之间的怼度。Item-based Ҏ同样需要进行三个步骤获得推荐:1Q得到内定wQItemQ的历史评分数据Q?Q针对内定wq行内容之间的怼度计,扑ֈ目标内容的“最q邻?#8221;Q?Q生推荐。这里内定w之间的相似度是通过比较两个内容上的用戯为选择矢量得到的。D个例子,假设用户和内定w如下Q?/div>
 
 
电媄A
电媄B
电媄C
电媄D
张三
喜欢
 
 
 
李四
喜欢
喜欢
喜欢
喜欢
王五
不喜?/div>
 
不喜?/div>
不喜?/div>
赵六
喜欢
喜欢
 
喜欢
 
可以看出Q电影A与D是最怼的。因为张三喜ƢAQ所以电影D可以推荐给张三?/div>
 
和基于用L推荐pȝ相比Q基于内定w的推荐系l最大的改进是更h扩展性。基于内定w的方法通过计算内容之间的怼性来代替用户之间的相似性。对于通常的互联网应用来说Q提供的内容Ҏ量相对较为稳定。比如一个大型网上书店,可能出售的书c数量也在几十万上下,而用h量就可能辑ֈ几百万。所以,比v用户Q内定w之间的相似性计需要的计算量要很多,从而大大降低了在线计算量,提高pȝ性能。基于内定w的推荐系l应用最为成功的是Amazon。Amazon为此q申请了一专利叫?#8221;Collaborative recommendations using item-to-item similarity mappings”[1]。当Ӟ在降低了计算量的同时Q完全基于内定w的推荐技术也在推荐的准确度上做了小的牺牌Ӏ大多数情况下,Z用户的推荐技术表现要略好于基于内定w的方法。这是因为基于内容的Ҏ忽略了相似用户之间的l群特征?/a>
 
不论是第一代的Z用户ҎQ还是第二代的基于内定wҎQ都不可避免的遇到数据稀疏的问题。在M一个网站中Q用L评分记录或者购买记录,相对整个可供选择的内定w来说Q都是很的一部分。所以在许多推荐pȝ中,每个用户涉及的数据量相当有限Q在一些大的系l如Amazon中,用户最多不q就评hq上百万本书?Q,造成评估数据相当E疏。当用户评hq的内容之间找不C集时Q就难以判断用户的口x否相|难以扑ֈ怼用户集,D推荐效果大大降低。ؓ了解决用h据的E疏问题,最方便的办法就是将用户Ҏ有选择q的内容的评分设ؓ一个固定的~省|例如用户的^均评分。针对如何预遗漏的评分业内又提Z很多U方法,不过一般来说采用最单的改进Ҏ可以有效地提高协同qo推荐pȝ的准度?/div>
 
另外一斚wQ即侉K用了Z内容的ҎQ在数据量巨大的时候,计算复杂度仍然成为性能瓉。ؓ了进一步解军_同过滤技术的扩展性能问题Q目前比较有效的办法是在用户评分数据上做一ơ聚cd?clustering)。聚cL术首先将h怼兴趣爱好的用户分配到相同的分cM。聚cM生之后,它或者将“最q邻?#8221;搜烦对象限制在最相近的聚cMQ根据类中其他用L评h预测目标用户的评P或者用聚类的中心作似提取推荐结果。由于用户之间的分类相对变化比较,因此聚类q程往往可以ȝq行Q而无需实时计算Q这样就大大降低了实时推荐的计算压力Q提高推荐系l的速度。一般来_聚类用户分为多个c,推荐pȝ的整体速度p够提高多倍。具体选择什么样的聚cȝ法,又会因应用领域和数据的分布特性而不同。如果聚cȝ法选择不当Q反而会降低推荐的准性。近q来Q推荐系l的法技术的发展也有了一些新的方向,比如SlopeOneQSVD{方法,׃一一列D了?/div>
 
在我看来Q一个商用推荐系l的其关键之处在于Ҏv量用h据的处理。因为推荐系l是数据优先Q数据的U篏多Ҏ荐的_ֺp有好处。而当用户的行为数据真正积累到上百万甚至上亿时Q如何在合理旉内得出有效的推荐Q就是对推荐技术最大的考验。除此之外,一个优U的推荐系l需要能够结合内容相g用户行ؓ相。传l的协同qoҎ是忽略内Ҏw的属性的Q这一斚w固然是对数据要求的优点Q但另一斚w也带来了难以避免?#8220;冷启?#8221;问题。其实,随着标签pȝ在互联网上的q泛应用Q标{本w就不失为是一U很好的内容属性。如何利用也是值得大家探讨的。充分利用到内容本n的属性,不同的怼性结合v来,q会l基于协同过滤的推荐技术带来新的动力。最后一点,设计良好的推荐技术要能够从用户对推荐内容的反馈中自行调整和学习。因为实际上每个用户对于推荐的内定w有不同的要求Q比如有的用户可能偏好比较热门的内容Q有的用h愿意发现冷门的内宏V针对不同用L反馈来不断学习每个用L特征Q才能够避免所采用法本n先天的偏差,获得较ؓ理想的效果?/div>


转蝲Q?a >http://blog.csdn.net/java060515/archive/2007/04/19/1570243.aspx


]]> վ֩ģ壺 պӰ߹ۿվ| ɫַȫ| 19žžڵվ| Ů߹| һëƬѿ˾| һëƬֱ| ۺϳ| ձĻ| þþþþ޾Ʒ| Ʒҳ߲| ƷþþþþС˵| ҹˬˬˬWWWƵʮ˽| һëƬѿa| þþþ޾ƷĻ| AV߹ۿ| ۺϾþþƷ| պƷӰһ| ҹƬ| avһ| þþþþëƬѲ | ϣӰԺѹۿƵ| ձҺ| Ļȫ| ߳ѿƬ| ޾ƷۺҰ| þþþþþ99Ʒ| ޶·Ļ߿| avƬѿ| ѹۿվ| ٸaëƬ˳| ߾Ʒۿѹۿ| Ʒһɫ | һëƬѲ| Ļ| ĻӰԺ4hu| պƵ| ƷAVһ | ߹ۿһbd| ۺɫӰ| ޶߹ۿ| Ƶվ߿|