簡介
林奇在其位于劍橋大學(xué)科技園的辦公室里說:“我對貝葉斯的理論有種著迷般的熱情。”這種熱情使得林奇先是在大學(xué)里狂熱地鉆研貝葉所的理論,然后又讓他創(chuàng)立了“自治”公司,并使得它發(fā)展成為英國最大的50家或60家公司之一,價值50億美元。
“自治”公司的軟件能“理解”那些沒有結(jié)構(gòu)化的信息,例如散文作品,通過上下文關(guān)系找出文章的主題。該公司1998年開始在布魯塞爾的科技板塊Easdaq上上市。盡管“自治”公司是投資人的寵兒,且自上市以來股價上漲了20倍,但在英國國內(nèi),它并不為人所熟知。今年5月初在美國Nasdaq的上市將有助于它改變這一局面。
林奇為“自治”公司定下的目標(biāo)并不簡單。雖然公司的軟件科技是復(fù)雜的,但目標(biāo)非常明確,他說:“我們的目標(biāo)是兩年后進入軟件市場的每一個領(lǐng)域!薄白灾巍惫居媱濋_發(fā)一種能理解總體意思而不是單個詞匯的軟件,讓計算機而不是人來讀電子郵件,并相應(yīng)決定由娜一位職員來處理郵件中提到的問題。林奇說:“電腦信息過去是以電腦喜愛的形式來傳送的,我們要讓它以人喜愛的形式來傳送。企業(yè)非結(jié)構(gòu)化的信息每三個月就會翻一番!
邁克.林奇是英國愛塞克斯郡一位消防隊員的兒子,是為數(shù)不多的認真研究過英國數(shù)學(xué)家托馬斯.貝葉斯在1750年左右創(chuàng)立的概率理論的人之一。這一研究是極為耗費精力的,但林奇在研究數(shù)學(xué)之余,還學(xué)會了經(jīng)商和出去推銷他的構(gòu)想,這在英國的學(xué)術(shù)界還是件頗為不易的事。
工作之余,林奇喜歡閱讀――伊薩貝爾.阿蓮德(IsabelAllende)是他最喜愛的作家之一,演奏爵士薩克斯,去溫暖的地方航行,或干脆為倒時差睡大覺――他需要不停地飛去美國的分公司。林奇與他的愛犬格羅米特一起擁有鄉(xiāng)下的一幢小別墅。
從林奇劍橋的辦公室望出去,是一座空蕩蕩鋼筋玻璃建筑,這似乎是對過于樂觀的一種警示。這座建筑曾經(jīng)是無線電訊公司Ionica的辦公室,該公司因為過于自信和開支過度而破產(chǎn)。
林奇對近來科技股的調(diào)整表示歡迎,他認為這可以讓風(fēng)險資本家們在將錢扔給那些構(gòu)想不周的企業(yè)之前,三思而后行。他沒有時間去考慮.com公司們的觀念:一個公司花錢越多,虧損越大,前景會越好。創(chuàng)建已經(jīng)四年的“自治”公司,預(yù)計今年會達到收支平衡。
將來,“自治”公司的軟件將幫助計算機理解語言和辨別人。但林奇勸人們放心,他不可能協(xié)助制造出比人腦更聰明的電腦。他說:“我們樂于認為機器是聰明的,但比起人來,機器就象是一品脫啤酒里的一只海蛤!
暗戰(zhàn)企業(yè)搜索
公開資料顯示,Autonomy成立于1996年,曾先后在布魯塞爾的EASDAQ、倫敦股票交易所和美國NASDAQ上市,但因為一向?qū)W⒂谄髽I(yè)級搜索市場,其名頭遠不如專注于互聯(lián)網(wǎng)搜索的Google來得響亮,雖然自2005年11月以5億美元完成對另一家企業(yè)搜索廠商Verity的收購后,Autonomy在企業(yè)搜索市場的份額已飆升至80%,遠超排名第二的Fast及微軟、Google、IBM等廠商。
不過,有跡象表明,Autonomy已有意整個切入到第三代互聯(lián)網(wǎng)搜索領(lǐng)域。2004年7月Autonomy通過其位于美國舊金山的控股公司Blinkx推出的視頻搜索門戶Blinkx,可視為其向互聯(lián)網(wǎng)搜索市場延伸的試探性舉措。
不無意味的是,在Autonomy向web搜索進行外延擴張的同時,web搜索市場巨頭Google、MSN等也在悄然向企業(yè)搜索市場滲透。
自2002年推出搜索專用設(shè)備GSA起,Google就一直不斷擴展其企業(yè)搜索業(yè)務(wù)線,包括推出Gmail的改良版和桌面搜索工具,以便通過捆綁不同的產(chǎn)品模塊形成整合優(yōu)勢。但由于種種原因,從那時迄今,其市場份額一直徘徊于1%以下,難有突破。為此,2003年,Google高層曾就是否砍掉企業(yè)搜索業(yè)務(wù)進行過多次激辯,最后還是決定保留下來,以觀后效。
此后,Google投注到企業(yè)市場的砝碼愈來愈大。今年一季度,Google先是推出了一款面向小型企業(yè)的新版GoogleMini搜索工具,并在其中集成了企業(yè)版桌面搜索功能,接著又推出企業(yè)搜索設(shè)備OneBox的升級版以及售價更高的企業(yè)級搜索工具。盡管并無革命性的技術(shù),但憑借同業(yè)最低價和個人市場的用戶口碑,Google已開始慢慢打開局面。
與此同時,包括微軟MSN、IBM在內(nèi)的軟件巨頭也磨刀霍霍,試圖在走入上升通道的企業(yè)搜索市場取一瓢飲。今年5月,在微軟發(fā)布最新的企業(yè)搜索工具之后,微軟首席運營官特納在一次會議上甚至對外放話說:“企業(yè)搜索是我們的地盤,我們不會讓Google奪走它!
而IBM,雖然沒有如此張揚,卻也在暗中畜勢,一面打造看家搜索產(chǎn)品,一面則遠交近攻,與Google、百度等搜索廠商展開多種合作。
百度
出人意料的倒是百度。就在邁克·林奇來華的前夕,百度不光一股腦砍掉了運營企業(yè)搜索業(yè)務(wù)的ES部門,還裁撤了該部門的大部分員工,從此將企業(yè)搜索從自己的擴張版圖中一筆勾銷。百度對外的解釋是,企業(yè)軟件與公司的搜索核心業(yè)務(wù)背離,且只占據(jù)很少的業(yè)務(wù)線,比例不到2%;選擇撤銷,是為了騰出精力發(fā)展包括競價排名、精準(zhǔn)廣告在內(nèi)的互聯(lián)網(wǎng)搜索業(yè)務(wù)。
有消息說,百度的部分離職員工已向Autonomy以及國內(nèi)另一家企業(yè)搜索廠商TRS投遞簡歷并接受面試,但這一消息沒有得到上述兩家企業(yè)的確認。
算法之爭
業(yè)內(nèi)人士認為,包括Google、MSN、百度在內(nèi)的基于關(guān)鍵詞搜索的廠商之所以遲遲難以在企業(yè)搜索市場打開局面,取得較大的市場份額,與關(guān)鍵詞搜索引擎技術(shù)本身的算法局限性有關(guān)。
以pagerank為代表的超鏈分析技術(shù),大多基于如下假設(shè):某個網(wǎng)頁被鏈接得越多,則其重要性就越大。由于只是根據(jù)網(wǎng)頁之間的超鏈關(guān)系來決定網(wǎng)頁內(nèi)容的重要程度,又只限于提取關(guān)鍵詞而不是提取基于內(nèi)容識別的概念,該算法一當(dāng)面臨企業(yè)級的精準(zhǔn)搜索要求時,就顯得捉襟見肘。雖然Google已試圖引進其他算法來克服這一局限性,但迄今收效甚微。
在看到pagerank的局限性以后,一些新興的搜索公司已開始嘗試更新的算法。例如Clusty,該公司通過借鑒Autonomy的模式識別技術(shù)以及自動分類等功能,可基于對概念的理解提供搜索結(jié)果的自動分類等功能。
Autonomy的模式識別技術(shù)的理論支撐點是貝葉斯概率論和申農(nóng)信息論,其核心是一個名為智能信息操作層(IDOL)的底層技術(shù)。因為不依賴于語言分析,而只是把語言當(dāng)成一種符號,根據(jù)關(guān)鍵詞的出現(xiàn)頻率來識別不同文本在上下文環(huán)境中的模式,以此來抽取文檔中的文本要素進行概念識別,因此,相比于pagerank算法,IDOL可以提供更精確的文本上下文分析和概念抽取,進而對信息進行超鏈接、自動聚類、自動分類、主動匹配、信息地圖等自動化操作。
搜索3.0浮現(xiàn)
Google、百度等當(dāng)然沒有停止對核心算法的改進,不管是簡單的修修補補,還是投資浩大的技術(shù)研發(fā)。
多種證據(jù)顯示,Google正準(zhǔn)備研發(fā)包括語義搜索在內(nèi)的下一代智能搜索引擎,微軟也開始研發(fā)基于WebBlock(網(wǎng)頁塊)而不是網(wǎng)頁的搜索技術(shù),而一家叫Senopy的公司則正在研究自然語言搜索引擎。
同樣研發(fā)自然語言搜索技術(shù)的還有IBM。據(jù)悉,IBM公司的研究和開發(fā)部門在UIMA平臺上早已開始進行基于語言分析、知識庫、問答系統(tǒng)、機器翻譯等功能的自然語言搜索研究。
人工智能搜索
在國內(nèi),暗中著手人工智能搜索的還包括百度、搜狗、海量科技、Aisou等。其中海量推出的digdig更聲稱已掌握了基于“語義數(shù)據(jù)挖掘”的中文信息處理技術(shù),并涉足到軟件、人物、圖片等垂直搜索領(lǐng)域。不妨順帶提及的是,在2003年Autonomy進軍中國之初,采用的就是海量的中文分詞技術(shù)。
第三代搜索的路徑
伍昕告訴記者,目前通過語義分析進入第三代搜索的路徑大約有三種:一種是通過真正的語法、詞法分析理解文字,諸如貓狗到底是什么之類,不過到現(xiàn)在為止,上述努力基本上無大建樹,因為語言比我們想象的要復(fù)雜得多,計算機要想完全理解語言,幾乎是不可能的;還有一種是模仿人腦進行人工智能分析,但由于比起所需要的精確度,現(xiàn)有電腦的處理能力還遠遠不夠,因此該方法雖然可以做到一定程度的精確搜索,但至少眼下看來還難有大成;第三種是基于概率論和信息論的模型匹配技術(shù),即通過統(tǒng)計分析理解文章的核心概念及概念間的關(guān)系。
算法之外,搜索引擎領(lǐng)域的另一個發(fā)展重點是對搜索結(jié)果呈現(xiàn)方式的處理。在美國,像Grokker、Snap這樣的后起之秀即以更個性化的搜索結(jié)果分類、呈現(xiàn)方式等為招徠,吸引了大批忠誠用戶。
不過伍昕表示,上述以web2.0為賣點的搜索引擎仍沒有走出將非結(jié)構(gòu)化信息進行結(jié)構(gòu)化處理的誤區(qū),其特征之一就是把每個信息都人工打上標(biāo)簽,依此來進行人工分類和信息聚合,這其實是吃力不討好的一件事。因為每個文檔、網(wǎng)頁上的信息都涵蓋眾多,張貼一個或幾個標(biāo)簽,不光不確切、有歧義,而且容易丟掉很多信息,于是給信息管理制造出新的難題。更好的做法應(yīng)該是對文章的內(nèi)容進行分析和概念提取,基于此,真正的關(guān)聯(lián)、分類和聚類才成為可能。
“互聯(lián)網(wǎng)其實是一個語義網(wǎng),Google只做到了很淺的一部分,就是通過關(guān)鍵詞搜索把信息從一個地方搬到另一個地方,但其實這里面可以構(gòu)建一個知識網(wǎng),而搜索引擎應(yīng)該成為這個知識網(wǎng)的操作系統(tǒng)。”伍昕說。
促使搜索引擎成為信息操作系統(tǒng),這其實一直是每一個搜索廠商的終極目標(biāo)。不論是個性化搜索、社區(qū)化搜索、知識問答社區(qū),還是人工智能、模式匹配、語義搜索,都是這一努力不可分割的一部分。盡管眼下關(guān)于第三代搜索引擎的激辯中不無喧嘩的噪音,也不無誤入歧途的風(fēng)險,但呼聲甚高的第三代搜索引擎或者搜索3.0的浮現(xiàn)和大面積井噴,相信只是個時間問題。
聯(lián)姻HP實現(xiàn)雙贏
2011年8月18日,惠普(NYSE:HPQ)和Autonomy(LSE:AU.orAU.L)公司公布了一項推薦交易的條款,惠普(通過一個間接全資子公司惠普SPV)以每股42.11美元(25.50英鎊)現(xiàn)金購買Autonomy公司所有的流通股票;萜蘸虯utonomy雙方董事會一致批準(zhǔn)了此交易。Autonomy公司董事會也一致建議其股東接受此要約。
基于2011年8月17日Autonomy的收盤價格,此約定意味著Autonomy股東的一天后每股溢價為64%,比Autonomy前一個月平均收盤價溢價58%。此交易將延伸至Autonomy所有股東,通過要約收購的方式來執(zhí)行。在今天發(fā)布此新聞后,將盡快在可行的情況下發(fā)布一份包含所有要約細節(jié)的文件。Autonomy收購預(yù)計將在2011日歷年結(jié)束時完成。
Autonomy公司首席執(zhí)行官及創(chuàng)始人麥克·林奇(MikeLynch)博士表示:“這是Autonomy歷史上極具意義的一天。從我們1996年建立之初,我們就一直朝著一個共同的愿景而努力,即通過變革人與信息的交互方式來徹底改變IT產(chǎn)業(yè)。惠普也擁有這一愿景,并為Autonomy提供了一個平臺,讓我們能夠?qū)⑹澜珙I(lǐng)先的技術(shù)和創(chuàng)新帶到一個真正的國際舞臺之上,使邁向未來信息經(jīng)濟時代成為現(xiàn)實!
麥克·林奇將繼續(xù)領(lǐng)導(dǎo)Autonomy,并將向李艾科匯報。收購?fù)瓿珊,Autonomy將獨立運營。