1、與英語(yǔ)等歐洲語(yǔ)言相比,中文在信息化處理上有很多不同的障礙,如:輸入、分詞等。請(qǐng)簡(jiǎn)要介紹一下中文語(yǔ)言處理的研究領(lǐng)域和存在的挑戰(zhàn)?
中文信息處理應(yīng)該大致劃分為漢字信息處理和漢語(yǔ)信息處理兩個(gè)顯然不同的但相互又有聯(lián)系的層次。在文字信息處理的層次上,由于漢字是大字符集,與英語(yǔ)等歐洲語(yǔ)言采用的幾十個(gè)字母相比,發(fā)展進(jìn)程中確實(shí)遭遇過(guò)很多不同的障礙,不過(guò)現(xiàn)在大體上已經(jīng)克服了,漢字信息處理技術(shù)已經(jīng)實(shí)用化、產(chǎn)品化。在語(yǔ)言信息處理的層次上,特別是到了內(nèi)容處理或語(yǔ)義理解的階段,人類(lèi)語(yǔ)言共性的影響遠(yuǎn)遠(yuǎn)超出了它們各自的特性。以詞語(yǔ)切分(segmentation,即問(wèn)題中的“分詞”)而言,并不能說(shuō)它是漢語(yǔ)的特別任務(wù),其他語(yǔ)言(包括英語(yǔ))也有相似的課題。
有實(shí)踐經(jīng)驗(yàn)的人又普遍感到(書(shū)面)漢語(yǔ)信息處理確實(shí)存在一些特別的困難。原因主要在于書(shū)面漢語(yǔ)的以下兩個(gè)重要特點(diǎn):(1)不同的語(yǔ)言單位(以漢字表示的語(yǔ)素、詞、短語(yǔ)、句子乃至更大的單位)之間界限不清晰;(2)中文的語(yǔ)言要素,特別是詞,在運(yùn)用時(shí)缺乏指示其功能或語(yǔ)義的形態(tài)變化。
認(rèn)識(shí)到漢語(yǔ)信息處理的困難,漢語(yǔ)信息處理發(fā)展的方向也就明確了。既要吸收國(guó)際上其他語(yǔ)言的先進(jìn)理論、技術(shù)和經(jīng)驗(yàn),也要充分重視漢語(yǔ)的特點(diǎn)。研究領(lǐng)域要做的工作很多,最具基礎(chǔ)性的工作應(yīng)該是建設(shè)服務(wù)于漢語(yǔ)信息處理的知識(shí)庫(kù)。
2、作為中文語(yǔ)言處理的獨(dú)特內(nèi)容,中文分詞在國(guó)內(nèi)外研究和應(yīng)用領(lǐng)域都有什么最新進(jìn)展?
書(shū)面漢語(yǔ)的詞語(yǔ)切分是漢語(yǔ)信息處理的第一道關(guān)口,姑且不論它是不是獨(dú)特內(nèi)容?;蛟S有的理論或系統(tǒng)聲稱沒(méi)有“分詞”這個(gè)步驟,但從語(yǔ)句中辨識(shí)出可以作為操作單位的或語(yǔ)言知識(shí)庫(kù)之登錄項(xiàng)(entry)的語(yǔ)言單位(不妨以“詞”命名),總是無(wú)可回避的。
完全正確的切分取決于對(duì)文本理解的深度或者說(shuō)需要足夠的語(yǔ)境信息,“白天鵝在湖里游泳”即是一例。目前自然語(yǔ)言理解技術(shù)未能取得突破,也不能期求詞語(yǔ)切分百分之百地正確。不同的應(yīng)用對(duì)切分的精度有不同的要求,不同的軟件有不同的適用范圍。
作為漢語(yǔ)詞語(yǔ)切分研究領(lǐng)域的最近進(jìn)展,有幾件事值得一談。一是清華大學(xué)孫茂松教授主持制訂的大型分詞詞表(可能尚未出版);二是中科院計(jì)算所劉群博士等人將自主開(kāi)發(fā)的切分軟件放在網(wǎng)上,可以自由下載;三是中國(guó)教育部語(yǔ)言文字應(yīng)用研究所開(kāi)發(fā)的平衡語(yǔ)料庫(kù)和北大計(jì)算語(yǔ)言學(xué)研究所開(kāi)發(fā)的《人民日?qǐng)?bào)》基本加工語(yǔ)料庫(kù),規(guī)模都有數(shù)千萬(wàn)字。另外,臺(tái)灣中研院黃居仁教授加工了有11億字的Chinese Gigaword Corpus,不過(guò)它是全自動(dòng)進(jìn)行的,而北大與語(yǔ)用所的加工結(jié)果都經(jīng)過(guò)了人工校對(duì)。
樣本語(yǔ)料庫(kù)的意義不可低估。劉群博士的軟件就是以半年《人民日?qǐng)?bào)》基本加工語(yǔ)料庫(kù)作為其統(tǒng)計(jì)算法的訓(xùn)練語(yǔ)料而開(kāi)發(fā)出來(lái)的。北大計(jì)算語(yǔ)言所放在網(wǎng)上的1個(gè)月的《人民日?qǐng)?bào)》基本加工語(yǔ)料庫(kù),下載人次已超過(guò)9400。俞士汶等人制訂的語(yǔ)料庫(kù)加工規(guī)范(2001年版和2003版)分別發(fā)表在《中文信息學(xué)報(bào)》(2003年第5,6期)和新加坡《漢語(yǔ)語(yǔ)言和計(jì)算學(xué)報(bào)》(2003年第2期)上,影響甚廣。
技術(shù)的普及和基礎(chǔ)資源的整備或許孕育了理論和技術(shù)的創(chuàng)新
3、中文分詞技術(shù)當(dāng)前面臨的主要挑戰(zhàn)是什么?互聯(lián)網(wǎng)的發(fā)展和計(jì)算能力的提升對(duì)其發(fā)展有何幫助?
與理論探討、算法設(shè)計(jì)、演示系統(tǒng)開(kāi)發(fā)不同,互聯(lián)網(wǎng)搜索引擎技術(shù)要求詞語(yǔ)切分技術(shù)具有實(shí)戰(zhàn)能力。在互聯(lián)網(wǎng)上應(yīng)用時(shí),歧義切分(交叉歧義和組合歧義)的消解技術(shù)仍會(huì)碰到解決不了的難題。現(xiàn)在最棘手的可能是“新詞”問(wèn)題。“新詞”可定義為詞典或訓(xùn)練語(yǔ)料中沒(méi)有的詞。新詞種類(lèi)很多,人名、地名、機(jī)構(gòu)名、商品名等實(shí)體名稱必然不斷有新的出現(xiàn),簡(jiǎn)稱或縮略語(yǔ)也是,比這些更難對(duì)付的是新出現(xiàn)的普通詞語(yǔ)。“新詞”識(shí)別和歧義切分消解有時(shí)也會(huì)糾結(jié)在一起。
從互聯(lián)網(wǎng)很容易獲取大量語(yǔ)料,可以用于訓(xùn)練或測(cè)試,這比從前方便多了。計(jì)算能力和網(wǎng)絡(luò)技術(shù)的發(fā)展對(duì)漢語(yǔ)詞語(yǔ)切分軟件的開(kāi)發(fā)和性能的提升肯定有幫助,譬如使用并行計(jì)算和分布式處理可以提高處理速度,促進(jìn)切分軟件實(shí)用化。不過(guò),漢語(yǔ)詞語(yǔ)切分的難題基本上屬于自然語(yǔ)言表述的信息內(nèi)容理解的層次,可能需要突破現(xiàn)有的計(jì)算機(jī)體系、期待人類(lèi)認(rèn)知過(guò)程的揭秘和新型智能信息系統(tǒng)的出現(xiàn),機(jī)器求解才有可能達(dá)到與人類(lèi)智能相媲美的程度。
4、如何判斷不同中文分詞系統(tǒng)的優(yōu)劣?
無(wú)疑,正確率是最重要的指標(biāo)。不過(guò),很難以單一指標(biāo)(如:正確率)評(píng)判漢語(yǔ)詞語(yǔ)切分軟件的優(yōu)劣,在互聯(lián)網(wǎng)上應(yīng)用,速度也是一個(gè)重要的指標(biāo)。適應(yīng)不同的應(yīng)用,需要量體裁衣,功能、性能指標(biāo)不同的軟件也自有各自適用的范圍。
5、請(qǐng)介紹一下中文語(yǔ)言處理的國(guó)際性研究組織?SIGHAN中文分詞競(jìng)賽是怎么回事?
為了嚴(yán)謹(jǐn)起見(jiàn),我強(qiáng)調(diào)這里介紹的應(yīng)該說(shuō)是中國(guó)大陸以外的情況。
較早成立的有美國(guó)的“中文計(jì)算機(jī)協(xié)會(huì)”,至今已組織了20多次東方語(yǔ)言信息處理國(guó)際會(huì)議。第20次于2003年在我國(guó)東北大學(xué)召開(kāi)。臺(tái)灣于1998年成立計(jì)算語(yǔ)言學(xué)學(xué)會(huì)(Rocling),每年舉行一次年會(huì);并出版《中文計(jì)算語(yǔ)言學(xué)期刊》。新加坡于1991年成立“中文與東方語(yǔ)言信息處理學(xué)會(huì)”,現(xiàn)在一年出版4期《漢語(yǔ)語(yǔ)言與計(jì)算學(xué)報(bào)》(俞士汶是該雜志的聯(lián)合主編)。
ACL(the Association for Computational Linguistics)是國(guó)際上最有影響的計(jì)算語(yǔ)言學(xué)學(xué)術(shù)組織。它有很多下屬組織,如關(guān)于分析技術(shù)的SIGPARSE(the Special Interest Group on Natural Language Parsing)成立于1994年。關(guān)于中文信息處理的SIGHAN(the Special Interest Group on Chinese Language Processing, HAN乃“漢”的拼音)成立于2002年,每年跟隨ACL舉辦一次研討會(huì)(workshop)。SIGHAN于2003年、2005年、2006年組織了中文分詞比賽,擴(kuò)大了它的影響。北大計(jì)算語(yǔ)言所也為這些比賽提供過(guò)訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料,并參加了第一次比賽(只限于美國(guó)賓州大學(xué)語(yǔ)料),并取得開(kāi)放測(cè)試第一名的好成績(jī)。
順便談及國(guó)內(nèi),規(guī)模最大、影響最廣的學(xué)術(shù)組織自然是“中國(guó)中文信息學(xué)會(huì)”,成立于1981年。今年11月將召開(kāi)“中國(guó)中文信息學(xué)會(huì)成立二十五周年學(xué)術(shù)會(huì)議”。
6、如何看待中文分詞技術(shù)和中文搜索引擎兩者之間的關(guān)系?
以“字索引”支撐的全文檢索技術(shù)應(yīng)用到網(wǎng)頁(yè)檢索之所以不再有昔日的輝煌就是因?yàn)榛ヂ?lián)網(wǎng)上的信息太多了,量變引起質(zhì)變,提高查準(zhǔn)率成為主要追求目標(biāo)。對(duì)網(wǎng)頁(yè)文本進(jìn)行切分建立詞索引為搜索引擎提供了新的發(fā)展機(jī)遇?,F(xiàn)在,在Yahoo,Google,百度等網(wǎng)站上檢索“華人”,給出的結(jié)果不再包含關(guān)于“中華人民共和國(guó)”的網(wǎng)頁(yè)信息,就是搜索引擎技術(shù)有重要進(jìn)展的體現(xiàn)。
不過(guò)有兩點(diǎn)需要說(shuō)明:
第一,這樣的技術(shù)并非是中文特別需要的,對(duì)于英語(yǔ),如果只對(duì)word作索引,要檢索對(duì)應(yīng)中文“筍”的“bamboo shoot”,會(huì)檢索到大量分別同“bamboo”或“shoot”相關(guān)的網(wǎng)頁(yè),同樣降低了檢索“bamboo shoot”的正確率。
第二,不正確的切分對(duì)查準(zhǔn)率和查全率都有損害,還是舉第2個(gè)問(wèn)題答案中的例子,用戶鍵入“白天鵝”,原本要檢索“白色的天鵝”,如果切分成“白天/ 鵝/ ”,豈非“失之毫厘,謬以千里”。
7、什么是中文命名實(shí)體的抽取技術(shù)?它和分詞技術(shù)之間有什么關(guān)系?
2006年SIGHAN在其組織的比賽中增加了中文命名實(shí)體識(shí)別的項(xiàng)目。所謂命名實(shí)體在文本中就是指人名、地名、機(jī)構(gòu)團(tuán)體名稱、商品名稱等專(zhuān)有名詞。因?yàn)樗鼈兺ǔ>哂形ㄒ恍裕谛畔z索、信息提取等應(yīng)用系統(tǒng)中受到特別的重視(當(dāng)然要另有辦法解決難以完全避免的重名問(wèn)題)。比SIGHAN早很多,TREC (Text REtrieval Conference)也組織過(guò)這類(lèi)項(xiàng)目的比賽。
命名實(shí)體識(shí)別或者說(shuō)抽取就是把這些專(zhuān)有名詞從文本或語(yǔ)句中分離出來(lái)。不難理解,命名實(shí)體抽取和詞語(yǔ)切分需要融合處理。由于詞典或訓(xùn)練語(yǔ)料的有限性,命名實(shí)體識(shí)別常常表現(xiàn)為新詞識(shí)別。機(jī)構(gòu)團(tuán)體的名稱通常很長(zhǎng),常由既有的切分單位組合而成。如果先做命名實(shí)體識(shí)別,對(duì)于由很多詞組成的單位名稱,又有進(jìn)一步切分的必要。有時(shí),專(zhuān)有名詞與普通名詞的詞形并無(wú)區(qū)別,如“鳳凰衛(wèi)視中文臺(tái)”及其簡(jiǎn)稱“鳳凰臺(tái)”是實(shí)體的專(zhuān)名,而其中的“鳳凰”、“衛(wèi)視”、“中文臺(tái)”都是普通名詞,“衛(wèi)視”又是“人造衛(wèi)星轉(zhuǎn)播電視”的縮略語(yǔ),這些問(wèn)題糾纏在一起,無(wú)論中文命名實(shí)體抽取還是一般意義上的詞語(yǔ)切分都還有深入研究的必要。
8、隨著中文信息數(shù)字化進(jìn)程的加快,特別是搜索引擎行業(yè)的發(fā)展,對(duì)中文語(yǔ)言處理人才的需求在加大,請(qǐng)介紹一下目前國(guó)內(nèi)在這方面教育情況?
根據(jù)中國(guó)國(guó)家標(biāo)準(zhǔn)《學(xué)科分類(lèi)與代碼表》(GB/T13745--92 )。在一級(jí)學(xué)科“計(jì)算機(jī)科學(xué)技術(shù)”下的二級(jí)學(xué)科“人工智能”里包含三級(jí)學(xué)科“自然語(yǔ)言處理”(520.2020)。在一級(jí)學(xué)科“語(yǔ)言學(xué)”下的二級(jí)學(xué)科“應(yīng)用語(yǔ)言學(xué)”里包含三級(jí)學(xué)科“計(jì)算語(yǔ)言學(xué)”(740.3550)。由此可見(jiàn),自然科學(xué)與語(yǔ)言學(xué)交叉滲透所取得的成果在學(xué)科體系中已經(jīng)有了一席之地。不過(guò),無(wú)論是“計(jì)算語(yǔ)言學(xué)”還是“自然語(yǔ)言處理”都還是三級(jí)學(xué)科,這意味著在大學(xué)里設(shè)置系或?qū)I(yè)從本科起就開(kāi)始培養(yǎng)中文信息處理人才還是受到限制的。據(jù)筆者了解,目前只有北京大學(xué)中文系設(shè)有應(yīng)用語(yǔ)言學(xué)(中文信息處理)專(zhuān)業(yè),南京師范大學(xué)設(shè)有語(yǔ)言技術(shù)系。不過(guò),培養(yǎng)研究生的路子就寬多了,中國(guó)的大學(xué)大約1990年代初開(kāi)始培養(yǎng)“計(jì)算語(yǔ)言學(xué)”和“自然語(yǔ)言處理”研究方向的博士生,培養(yǎng)碩士生更早,1980年代中期就開(kāi)始了。現(xiàn)在已有相當(dāng)數(shù)量的博士和碩士在發(fā)揮生力軍的作用。
不過(guò),按“計(jì)算語(yǔ)言學(xué)”和“自然語(yǔ)言處理”研究方向培養(yǎng)的博士和碩士屬于高級(jí)研究人才,數(shù)量畢竟有限,滿足不了中文信息化迅速發(fā)展的需求。特別是搜索引擎等信息服務(wù)業(yè)的發(fā)展,更增加了對(duì)既有計(jì)算語(yǔ)言學(xué)理論基礎(chǔ)、又有豐富的語(yǔ)言工程實(shí)踐經(jīng)驗(yàn)的工程技術(shù)人員的需求。鑒于這樣的認(rèn)識(shí),在楊芙清院士的倡導(dǎo)下,北大計(jì)算語(yǔ)言研究所和北大軟件與微電子學(xué)院決定共同建設(shè)語(yǔ)言信息工程系,下設(shè)語(yǔ)言信息處理和計(jì)算機(jī)輔助翻譯兩個(gè)專(zhuān)業(yè)。對(duì)學(xué)習(xí)合格的學(xué)生將授予北京大學(xué)工程碩士學(xué)位。這是中國(guó)計(jì)算語(yǔ)言學(xué)研究逐步成熟、走向社會(huì)、服務(wù)大眾的又一重要標(biāo)志。
9、請(qǐng)簡(jiǎn)要介紹一下北大計(jì)算語(yǔ)言所的背景。開(kāi)展了哪些中文語(yǔ)言處理方面的研究?取得了什么樣的成績(jī)?
北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所(Institute of Computational Linguistics,ICL)成立于1986年,是一個(gè)文理學(xué)科結(jié)合的研究所。20年來(lái),在培養(yǎng)了數(shù)十名博士、碩士的同時(shí),在計(jì)算語(yǔ)言學(xué)和自然語(yǔ)言處理技術(shù)領(lǐng)域進(jìn)行了廣泛、深入的研究,研究課題涉及語(yǔ)言模型與分析技術(shù)、計(jì)算詞典學(xué)與詞典編纂、語(yǔ)料庫(kù)語(yǔ)言學(xué)、術(shù)語(yǔ)學(xué)與術(shù)語(yǔ)標(biāo)準(zhǔn)化、計(jì)算語(yǔ)義學(xué)、機(jī)器翻譯的理論與技術(shù)、自然語(yǔ)言處理評(píng)價(jià)技術(shù)、信息提取與信息檢索技術(shù)、中國(guó)古詩(shī)計(jì)算機(jī)輔助深層研究等,這些課題來(lái)自國(guó)家973、國(guó)家863、國(guó)家自然科學(xué)基金、國(guó)家社會(huì)科學(xué)基金、國(guó)家科技攻關(guān)項(xiàng)目和部級(jí)項(xiàng)目,也有與國(guó)內(nèi)外著名企業(yè)、大學(xué)、研究機(jī)構(gòu)的橫向合作項(xiàng)目。
除了論著之外,北大計(jì)算語(yǔ)言所在語(yǔ)言數(shù)據(jù)資源建設(shè)方面有較多的積累:現(xiàn)代漢語(yǔ)語(yǔ)法信息詞典(8萬(wàn)詞語(yǔ)),大規(guī)?,F(xiàn)代漢語(yǔ)基本標(biāo)注語(yǔ)料庫(kù)(6000多萬(wàn)漢字),面向漢英機(jī)器翻譯的現(xiàn)代漢語(yǔ)語(yǔ)義詞典(6萬(wàn)),面向跨語(yǔ)言文本處理的中文概念詞典(10萬(wàn)概念),句子對(duì)齊的雙語(yǔ)語(yǔ)料庫(kù)(80萬(wàn)句對(duì)),多個(gè)專(zhuān)業(yè)領(lǐng)域的術(shù)語(yǔ)庫(kù)(35萬(wàn)術(shù)語(yǔ)),現(xiàn)代漢語(yǔ)短語(yǔ)結(jié)構(gòu)規(guī)則庫(kù)(600條規(guī)則)以及支持這些知識(shí)庫(kù)建設(shè)的工具軟件,如漢語(yǔ)詞語(yǔ)切分及詞性標(biāo)注軟件、漢語(yǔ)詞語(yǔ)注音軟件等,這些知識(shí)庫(kù)和軟件已在世界各地得到廣泛應(yīng)用,產(chǎn)生了廣泛的影響。