<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    作者:Tim、Jeremy 和Tara
    翻譯:Yeqi 工程師

    注:Andrei Broder是雅虎新興搜索技術(Emerging Search Technology)部門副總裁和雅虎研究科學家,在他數十年的職業生涯中,曾經在著名的搜索引擎公司AltaVista中擔任過研發部門副總裁和首席科學家,并曾以“網頁消重”“網絡映射”方面的論文分別獲得了WWW6和WWW9的最佳論文獎。該訪談最早刊登在雅虎美國的搜索博客上,分為3個部分。在第1部分中,Andrei談到了他選擇來雅虎工作的原因,在談話中從可以看出Andrei和搜索之間非同一般的感情。

    broder.jpg


    問:當你加盟雅虎的消息被公布后,在一次采訪中你曾經提到過,自己的選擇讓2/3的朋友失望了,為什么會這么說呢?
    答:是這樣的,你知道,搜索這個行業真是太小了。那時我收到了雅虎和其他幾個搜索巨頭的邀請。我在這三家搜索公司中都有很多朋友,所以無論我選擇去哪家公司,其他2/3的朋友都會因為我沒有選擇他們的公司而不開心的!

    問:那么,為什么選擇雅虎呢!?
    答:我一直從事研究的工作。最近,人們經常會問研究(research)和前沿開發(advanced development)之間的區別到底是什么?這是非常有趣的問題,因為以前研究通常會領先目前的技術水平5年,而前沿開發領先的時間則短得多。不過,現在這種情況已經轉變了,從研究到前沿開發的周期已經變得非常的短,他們已經開始變得同步起來了。

    但是,它們之間還是有著本質不同的:研究的目的是推進全球技術進入新階段。所有進行研究的人們在一起推進全球的技術。諸如IBM和微軟這樣的公司都在支持研究工作,因為隨著相應的市場擴大,每家公司也可以相應獲利。同樣,雅虎也采取了一個類似的開放的方法來開發、研究和發表成果,這里的研究環境和目標更讓我認可。

    問:你以前住在哪里?
    答:我以前住在紐約,但是我非常樂意回到加州來生活。我過去在曼哈頓周邊的Hawthorne工作,住在Riverdale,一切都挺好。從文化角度來說,沒有地方可以比得上紐約了。順便說一下,我們在紐約也有辦公室;雅虎研究部在原來HotJobs公司(注:美國著名的在線招聘網站,2001年底被雅虎收購)的辦公室里也有辦公場所。

    問:工作之余你會做什么呢?
    答:我會去滑雪。4年前我在一次滑雪中摔傷了我的肩膀。不過搬到加利福尼亞后,我已經準備重新開始滑雪了!

    問:當你滑雪時,有沒有為你的研究或工作帶來過靈感?
    答:哈!不止是滑雪,當我在AltaVista的時候,我也會常常去旅行。在一次從羅馬到蘇黎士的旅行中,我當時正在寫電子郵件以及做一些你平時在商務旅行中都會做的事,坐在我旁邊的是一個韓裔的美國小女孩,9歲,非常口齒伶俐。她問了我很多問題,比如你在做什么,你用的是哪一種型號的計算機。我告訴她我在AltaVista工作,于是她說,“噢,我知道,那是一個搜索引擎!但是我們還不讓去用它。”一個9歲女孩都知道我的研究領域,這太讓人驚訝了。如果我說是DEC或者康柏公司,可能她就不知道我是干什么的了。這就是網絡的魔力。

    問:你決定從哪個方面介入搜索研究?
    答:在這個音頻片段中,Andrei談了他的研究生求學經歷,導師Don Knuth對他未來的影響,以及他最早的以及最廣為人知的關于New Duplicates的論文。

    下載語音鏈接:
    Download file

    問:你覺得目前網頁搜索應用的現狀如何?
    答:一些問題還沒有得到解決。如果你回過頭閱讀一下90年代中期的WWW會議上的論文,像重復、數據抓取策略、網絡圖分析等問題,現在仍然緊密相關的。所有這些問題都依舊存在,有很多可以改進的地方。同樣,就像你看現在的汽車,依然會有很多對鋼材料、發動機、結構的改進,但是研究的焦點已經放到了多功能汽車等上面。對于網頁搜索,我相信下一步的研究方向將會是信息提供和多種信息來源的整合。

    問:你是否想說我們(作為一個產業)自搜索引擎發明以來已經有了長足的進步?
    答:是的,很顯然。當AltaVista剛誕生的時候,我們需要3個月的時間來建立一個3千萬網頁文檔的索引,而且還存在很多的重復和其它各種問題。90年代早期,5萬詞的辭典就可被稱為“大”。接著,“大”是指百萬級別,而現在則是指數十億級別。這種變化不僅僅是數量上的,質量的改進同樣使得搜索結果變得更好。

    問:那么,Andrei,你認為下一步我們要朝哪個方向走?
    答:我在《網頁搜索的分類(Taxonomy of Web search)》這篇論文中談到了網頁搜索的三個階段。我相信我們正在走入一個全新的時期。我把這個新階段稱為“沒有搜索框的搜索”。今天的搜索被限制成你先給一些信息,然后得到一些信息,屬于一種拉(Pull)的模式。下一步要做的是信息能根據上下文關系自動給出而不需要主動去搜索,一種推(Push)的模式。我最喜歡拿GPS舉例,它取代了以往的在地圖上找路的方式。在你的汽車里,GPS導航系統能為你指明方向,告訴你最近的加油站等。在今后的1到2年中,可能會發展成只有在你缺少汽油的時候才告訴你最近的加油站信息。于是,你只有在“需要的時候”才會獲得信息,而不需要去主動請求信息。換句話說,我們會從信息檢索轉變到信息提供。

    問:RSS屬于你說的那種信息推送方式嗎?
    答:RSS提醒屬于滿足周期性需求的一種信息提供。而我所說的則是根據上下文關系來提供信息。廣告就是一種上下文相關的信息提供方式。它的關鍵在于提供的廣告必須和上下文相協調。例如,在滑雪雜志中,滑雪板廣告就非常符合雜志的內容需求。由于廣告這樣的問題,信息提供作為一門科學還在不斷的發展中。

    問:信息提供就是你正在致力去做的事情嗎?
    答:是的,我正在嘗試去理解信息提供形成的原理——騷擾信息和有用信息之間是有明顯區分的。我們也希望用戶可以在此過程中扮演自己的角色。你必須理解上下文環境、用戶以及社會影響。如果我們知道其他像你這樣的人都在做什么,那么對于這些用戶群,我們有時就可以從信息檢索轉變到信息提供了。但是,我們仍然沒有信息提供的理論,也沒有一種可靠的模型。這完全是一個空白的領域。我們不太可能在短期內就可以看到成果,但是,他們代表下一階段的發展方向。

    事實上,我們對于某些上下文環境已經做的不錯,例如,電子商務網站。假定你去一個在線旅游網站,搜索一下,你可以找到天氣好壞的信息,會告訴你有哪些酒店可以住宿,有什么樣的活動可以參加,等等。這就是一個關于信息提供的例子。但是,在其它沒有這樣緊密上下文關系的領域,我們仍需要努力。

    實質上,我們正在把用戶查詢的平均單詞數由2.7個逐漸降到0。這是如何做到呢?有個有趣的關于在線購物的呆伯特漫畫(Delbert),不再是傳統的一次點擊購物,而是有了不需要任何點擊的購物方式。如果你拒絕的速度不夠快,恐怕呆伯特已經把商品發給你了!這如同變戲法一樣,在幕布后面藏有很多魔法,你需要好的用戶界面來把它藏起來;這是一個不錯的研究方向。

    不久前,Andrei Broder(雅虎研究團隊成員及新興搜索技術副總裁)花了一個下午的時間和我們談了他在搜索行業數十年的歷史以及他未來將要進行的項目。最后,作為訪談的結束,Andrei回答了雅虎搜索日志的讀者們提出的一些問題。

    問:很多人都在問,你如何看待發生在AltaVista身上的事?
    答:AltaVista遇到了可以說是最壞的時機;它是帶著巨大的技術優勢起步的,但是卻沒有足以維持它的商業模式,最終失去了它在早期核心搜索領域建立起的領先地位。

    問:有一位讀者的問題是關于你的分類學論文的,你能談談這篇文章嗎?
    答:在那篇論文中,我談到了搜索的三個階段,就如同我以前所提到的。網絡搜索誕生于上世紀90年代中早期,完全是對傳統信息檢索模式的擴展。當時,人們仍舊在努力尋找讓傳統信息檢索模式能適應大規模互聯網的最佳方法:布爾模型,隨機模型,等等。第二個階段,在上世紀90年代后期,是關于元數據的。超鏈接,標簽,點擊數據,各種形式的元數據類別。(通過)互聯網的結構。但是,本質上這些方法仍然還是靠句法結構,基本上是用單詞來匹配文本。并沒有真正去理解文本的含義。第三個階段,還處在不斷發展中,是基于文本語義和分析的,我們試圖去理解用戶的查詢到底想要表達什么。這就是論文的概述。現在,通過對用戶查詢詞的理解已經推導了很多信息和新的產品,如雅虎的快捷展現(Yahoo! Shortcuts)。語義,快捷展現,本地搜索,都是方興未艾。看上去,文章當時正確地預測了下一階段的發展是語義搜索。當然,如果現在去補充我的論文的話,我會寫上第四代搜索引擎:信息提供。

    問:你是如何看待博客搜索的?為什么它的結果并不盡人意?
    答:博客搜索是很困難的。一般來說,如果你看看網頁搜索,幫助最大的是元數據,鏈接文字、鏈接、網絡結構圖的分析,等等。對于博客文章來說,我們只有很少有用的元數據。即使你從博客中獲取了一些元數據,你也會發現這些數據通常是錯誤的,或者你無法信任它的正確性,于是你就很難從元數據那里獲得幫助。

    此外,博客文章也通常不具備上下文關系。很多的博客文章本身不獨立,上下文關系都在博客文章之外。即使是人看到這些博客文章都會不知所云。我不確信在這方面我們會有多少進展(但是申明一下,這不是我關注的領域!)

    問:最后,是一些關于垃圾信息(Spam)的問題。
    答:垃圾信息制造者們試圖干擾我們搜索引擎所用到各種信息參數。我們不僅得當心鏈接型作弊、虛假站點作弊等,還得當心對查詢日志以及其他敏感信息的污染。另一方面,垃圾信息是有經濟利益的,人們以為作弊者只是在開玩笑而沒有獲得好處,其實不然。垃圾信息是經濟驅動的,而我們想做得就是提高作弊的難度以使得制造垃圾信息無錢可賺。隨著搜索引擎提供更加個性化的用戶體驗,搜索的社區化因素越來越重要。現在還不清楚這種變化對垃圾信息的影響——開發出行為像人一樣的抓取機器人(robots)程序是很困難的,這或許正是意義所在,因為搜索的社區化對垃圾信息極為排斥。


    只有注冊用戶登錄后才能發表評論。


    網站導航:
     

    posts - 131, comments - 12, trackbacks - 0, articles - 32

    Copyright © yukui

    主站蜘蛛池模板: 亚洲香蕉在线观看| 亚洲精品人成电影网| 成人久久久观看免费毛片| 日本免费一二区在线电影| 亚洲日韩一区二区一无码| 两个人的视频高清在线观看免费| 亚洲伊人精品综合在合线| 国产精彩免费视频| 亚洲情A成黄在线观看动漫软件| 日韩在线免费视频| 亚洲日本VA午夜在线影院| 暖暖免费高清日本中文| 麻豆69堂免费视频| 亚洲真人无码永久在线| 大地影院MV在线观看视频免费| 亚洲成AV人片在线观看WWW| 久久国产免费观看精品3| 亚洲国产成人99精品激情在线| 免费网站看v片在线香蕉| 免费无遮挡无遮羞在线看| 国产亚洲精久久久久久无码| 91视频免费网址| 亚洲精品乱码久久久久久蜜桃图片 | 国产成人免费ā片在线观看老同学 | 亚洲精品中文字幕无乱码麻豆| 成年私人影院免费视频网站| 校园亚洲春色另类小说合集| 亚洲日韩中文字幕日韩在线| 免费在线中文日本| 亚洲综合精品伊人久久| 亚洲精品NV久久久久久久久久| 麻豆精品不卡国产免费看| 亚洲日本久久久午夜精品| 亚洲成AⅤ人影院在线观看| 国产精品99久久免费观看| 亚洲日韩一中文字暮| 亚洲av无码国产精品夜色午夜| 一二三四视频在线观看中文版免费| 免费又黄又爽又猛大片午夜 | 亚洲中文字幕久久精品蜜桃| 中文字幕亚洲不卡在线亚瑟|