簡介
聶再清博士于2004年4月加入微軟亞洲研究院互聯(lián)網(wǎng)搜索與挖掘組,現(xiàn)任主管研究員。主要負(fù)責(zé)微軟對(duì)象級(jí)別互聯(lián)網(wǎng)搜索引擎的研發(fā)工作,包括對(duì)象級(jí)別的互聯(lián)網(wǎng)數(shù)據(jù)抽取,集成和檢索。在對(duì)象級(jí)別搜索與挖掘方面申請(qǐng)國際專利十余項(xiàng)。人立方關(guān)系搜索和微軟學(xué)術(shù)搜索是對(duì)象級(jí)別搜索技術(shù)的兩個(gè)成功應(yīng)用實(shí)例。還有多項(xiàng)對(duì)象搜索技術(shù)被用在微軟必應(yīng)搜索(Bing)中。
聶再清于1996和1998年在清華大學(xué)計(jì)算機(jī)系獲學(xué)士和碩士學(xué)位,2004獲美國亞利桑那州立大學(xué)計(jì)算機(jī)科學(xué)專業(yè)博士學(xué)位。他的研究方向是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和互聯(lián)網(wǎng)信息檢索。其論文發(fā)表于計(jì)算機(jī)領(lǐng)域一流學(xué)術(shù)會(huì)議和期刊,如WWW, SIGKDD, ICML, TKDE, JMLR等。多次擔(dān)任WWW, ICML,SIGKDD, ICDM, CIKM, ACL,AAAI等一流國際會(huì)議程序委員會(huì)成員或領(lǐng)域主席(Area Chair),及互聯(lián)網(wǎng)信息集成國際研討會(huì)(IIWeb2012和IIWeb2007)程序委員會(huì)主席。
研究成果
聶再清是互聯(lián)網(wǎng)信息集成和知識(shí)挖掘的知名專家。聶再清和他的團(tuán)隊(duì)提出一種全新的基于對(duì)象的互聯(lián)網(wǎng)搜索技術(shù)。這個(gè)聽起來有點(diǎn)學(xué)術(shù)化的技術(shù)其實(shí)并不難理解。當(dāng)你使用這種搜索引擎時(shí),它列出的結(jié)果將是最終對(duì)象的集合,而不是雜亂的網(wǎng)頁列表。一切的一切都圍繞著你所搜索的那個(gè)對(duì)象。 比如,當(dāng)你搜索“多普達(dá)”時(shí),系統(tǒng)列出的不是包含此信息的各種頁面標(biāo)題、內(nèi)容檢索,而是一個(gè)個(gè)多普達(dá)手機(jī)—除型號(hào)、圖片等直觀信息外,每個(gè)產(chǎn)品下還列出介紹、價(jià)格、用戶評(píng)價(jià)等相關(guān)信息,就像我們?cè)谫徫锞W(wǎng)站中看到的陳列頁面一樣,但內(nèi)容要遠(yuǎn)比某個(gè)網(wǎng)站所陳列的豐富,因?yàn)槭莵碜哉麄(gè)互聯(lián)網(wǎng)。搜索引擎所列出的對(duì)象內(nèi)容并不是通過人工來整理的,而是計(jì)算機(jī)通過自動(dòng)抓取、自動(dòng)分類而形成的“虛擬”頁面。微軟學(xué)術(shù)搜索和人立方是對(duì)象級(jí)別搜索技術(shù)的兩個(gè)成功應(yīng)用實(shí)例。
微軟學(xué)術(shù)搜索
微軟學(xué)術(shù)搜索是微軟亞洲研究院開發(fā)的免費(fèi)學(xué)術(shù)搜索引擎,它為研究員、學(xué)生、圖書館館員和其他用戶查找學(xué)術(shù)論文、國際會(huì)議、權(quán)威期刊、作者和研究領(lǐng)域等提供了一個(gè)更加智能、新穎的搜索平臺(tái),同時(shí)也是一個(gè)對(duì)象級(jí)別垂直搜索、命名實(shí)體的提取和消歧、數(shù)據(jù)可視化等許多研究思路的試驗(yàn)平臺(tái)。
人立方關(guān)系搜索
微軟人立方關(guān)系搜索,是由微軟亞洲研究院研發(fā)的對(duì)象級(jí)別互聯(lián)網(wǎng)搜索引擎,是一款新型的社會(huì)化搜索引擎,它能從超過十億的中文網(wǎng)頁中自動(dòng)的抽取出人名、地名、機(jī)構(gòu)名以及中文短語,并通過算法自動(dòng)的計(jì)算出它們之間存在關(guān)系的可能性。人立方搜索的創(chuàng)建理念來自于“六度空間”,只要隨便輸入一個(gè)人物,人立方搜索將給出該人物的關(guān)系、網(wǎng)頁、資訊、簡介等眾多內(nèi)容。最新推出的人立方2.0加入交互式知識(shí)挖掘功能包括人立方關(guān)系百科和人立方讀心機(jī)器人,希望聚集大眾的力量,實(shí)現(xiàn)互聯(lián)網(wǎng)知識(shí)的整理。
研究論文
● | Statistical Entity Extraction from Web. Zaiqing Nie, Ji-Rong Wen, Wei-Ying Ma. To appear in the Proceedings of the IEEE, September, 2012. |
● | BioSnowball: Automated Population of Wikis. Xiaojiang Liu, Zaiqing Nie, Nenghai Yu, Ji-Rong Wen. In the Proceedings of SIGKDD 2010. |
● | Closing the Loop in Webpage Understanding. Chunyu Yang, Yong Cao, Zaiqing Nie, Jie Zhou, Ji-Rong Wen. In TKDE 2009. |
● | StatSnowball: a Statistical Approach to Extracting Entity Relationships. Jun Zhu, Zaiqing Nie, Xiaojiang Liu, Bo Zhang, Ji-Rong Wen. To appear in WWW 2009. |
● | Web Object Retrieval. Zaiqing Nie, Yunxiao Ma, Shuming Shi, Ji-Rong Wen, Wei-Ying Ma. In WWW 2007. |
● | Object-Level Vertical Search. Zaiqing Nie, Ji-Rong Wen, Wei-Ying Ma. In CIDR 2007. |
● | Web-Scale Entity Search (this paper is in Chinese: 對(duì)象級(jí)別的互聯(lián)網(wǎng)垂直搜索). Zaiqing Nie, Ji-Rong Wen, Wei-Ying Ma. In Communications of China Computer Federation, 2007 (Invited Paper). |
● | Simultaneous Record Detection and Attribute Labeling in Web Data Extraction. Jun Zhu, Zaiqing Nie, Ji-Rong Wen, Bo Zhang, Wei-Ying Ma. In SIGKDD 2006. |
● | 2D Conditional Random Fields for Web Information Extraction. Jun Zhu, Zaiqing Nie, Ji-Rong Wen, Bo Zhang, Wei-Ying Ma. In the 22nd International Conference on Machine Learning (ICML 2005). |
● | Object-Level Ranking: Bringing Order to Web Objects. Zaiqing Nie, Yuanzhi Zhang, Ji-Rong Wen, and Wei-Ying Ma. In WWW 2005. |