Google和BI有什么關系?這個站在風口浪尖上的公司,用一個“火”字來形容似乎并不為過。將BI跟它扯上關系,似乎有些攀高親的意思。不過,現在BI確實已經和搜索技術聯系起來,而后者正是Google的特長。對于BI廠商,在產品中融入搜索的功能似乎也是一個潮流,例如BO在之前發布的某產品版本中就著重強調了它的模糊搜索功能。
交融
搜索、文本挖掘,這些技術是相似的,特別是后者中出現了“挖掘”的字樣,很明顯和數據挖掘這個術語關聯到一塊。以前曾經聽一個公司介紹他們的文本挖掘產品,主要特點就是訂閱關鍵字,然后從各新聞網站中采集到相關的內容。此處的“相關”,按照這個產品的說法,并非簡單的文字匹配,還考慮到語義。例如搜索BI,也能夠將相近的,諸如“商業智能”、“商務智能”都納入搜索范圍。并且還具備一些關聯性分析之類的東東,例如關鍵詞主要出現的位置,和哪些詞一起出現的頻率。這種技術應用在競爭情報分析上面還是挺有趣的。現在,搜索引擎大多也在提供類似的功能,比如Google有alert,也是通過訂閱關鍵字,返回相關的網頁鏈接;百度也有這樣的東東。但顯然,他們的特點在于搜索,也就是信息采集階段,分析的功能還是不夠強。
如果將對這種非結構化的信息處理和傳統數據倉庫中ETL相比,搜索就相當于“E”的位置,它負責抽取。而網絡上的各種新聞、文檔,也就成了數據源。如果要對非結構化信息進行分析,還是得轉換成結構化的,也就是說必須要經過轉換,甚至裝載的步驟。
這種需求似乎也正在出現,最近一段時間,就聽到客戶需要這么一個東東——能夠搜索本地文檔的工具。這些文檔包括mail、pdf、word文檔等等。一聽到這樣的需求,馬上聯想到不就是Google desktop提供的功能嗎?正好自己機器上裝了,便演示一把,果然不錯。但還需要改進的是,能夠有權限控制,讓不同的用戶能夠搜索到不同級別的文檔。另外,當然就看能不能將這個界面整合到自己的portal當中去了。
除了搜索技術,去年年底的時候,Google曾經買下一家做Web分析的公司(Urchin),并且將它作為一種免費的服務放在網上。一開始,只要有Google賬號的都可以自動申請服務,后來改成審批申請了。這項服務可以為網站監控流量,從哪里來,往哪里去,以及訪問次數等等,提供一些可視化報表來展現。分析部分是非常簡單的,只是普通的報表展現。后臺則是要求你在網頁上嵌入一段代碼,可以采集到網站的訪問信息。當這項免費服務推出的時候,那些原來在這個領域中(現在成為Google的競爭對手)的公司,想必非常惱火吧。
再看看數據分析一塊,最常用的數據分析工具是什么?Excel算是吧,或者稱之為一種spreadsheet產品。現在google也有類似的玩意兒。比如,Google電子表格的速度就很值得注意。據說,在輸入數據到工作表的時候,幾乎不會遇到任何的耽擱。即便是重新計算負載公式工作表,也只會遇到輕微的停滯。所以,如果只是為了簡單數學或管理小型列表,那么Google電子表格產品的確很容易被看作是一個完美易用的工具。不過,其功能還是比較簡單,頂多是些公式計算的功能,遠沒有達到微軟Excel那樣復雜的程度,譬如作圖就不行。但也有其本身的特點,因為是在網絡上面的,因此Google似乎就更強調可以共享spreadsheet。
我們可以看到,Google這些產品和服務,多半還是圍繞搜索這項核心技術,說得虛一些,都可以叫做信息采集。配一些簡單的分析功能,倒能形成比較完整的服務,但如果要說專業,還算不上。因此,Google也選擇了和專業BI廠商合作,譬如它的企業級搜索產品Onebox,就已經和Cognos、SAS展開合作。
BI的內容不少。這些大家伙們其實也都是比較專注的,其中單獨的模塊都能形成獨特的產品,譬如元數據、數據質量,更別提這一塊信息采集了。只是國內的這種市場并沒有細分,“專注”對于公司來說確實是一個不小的考驗。
搜索帶給BI什么
幾個月前,國內某論壇上曾有人辯論,數據倉庫和搜索技術哪個更牛一些。有位朋友說,國內某個公司用搜索就解決了數據倉庫要解決的事情。這樣的爭論,當然不需要去參加,除非想去抬杠。
這兩個領域的確有些地方交叉,但我還是認為,搜索可以為數據倉庫提供非結構化數據的抽取和管理功能,但對于后續的分析,那還是BI的事情。當然,現在搜索也講究自然語言的搜索(據說這也是Google將李開復挖過去的原因)。
老實說,我看不到搜索能夠給BI帶來什么明顯的好處。因為它的強項——對非結構化數據的處理,似乎并沒有那么迫切的需求(當然也不能否認那些大廠商創造需求的能力)。
如果說用搜索技術可以讓企業領導、分析人員根據記憶中模糊的印象去查找一個指標值、一份報告,確實有用。但在大多情況下,領導更習慣于下達一個命令讓手下人去告訴它那個搜索結果。而對于分析人員來說,如果他不知道那些指標的位置,那幾乎就意味著不能勝任他的本職工作了。
當然,如果那些指標、報告的數量多到需要用搜索技術才能找得出來,那這個數據倉庫已經發展到什么階段就不知道了。但顯然,目前從國內來看,幾乎沒有什么企業能夠有這樣的數據倉庫。那么難道不能早作打算,先將搜索引擎做好嗎?我想這是浪費時間,畢竟搜索不是一種基礎設施。你想,當初Web發展起來的時候,哪里有搜索引擎這個概念呢?只有當信息量太大、太復雜了,才有它的誕生。