簡化字和繁體字的差異,是兩岸文字中的主要歧異,也是兩岸深化交流的障礙。因此,2009年在長沙召開的第五屆兩岸經(jīng)貿(mào)文化論壇共同提出兩岸開發(fā)簡繁字智能轉(zhuǎn)換系統(tǒng)的建議。大陸不少單位開展了此項轉(zhuǎn)換系統(tǒng)的研制,取得了積極的成果。但轉(zhuǎn)換正確率高的一般在97%左右,達不到完全應(yīng)用的要求。由國家語委有關(guān)部門牽頭,由廈門大學(xué)、教育部語用所和北師大三家聯(lián)合研制的“漢字簡繁文本智能轉(zhuǎn)換系統(tǒng)”的成功,達到了在實際轉(zhuǎn)換中放心使用的水平,其準(zhǔn)確率經(jīng)中國信息學(xué)會專家測試達到了99.9%,這是很難得的成績。
以前轉(zhuǎn)換準(zhǔn)確率不能突破的瓶頸,在于簡繁字間一對多和同音代替簡化形成的少數(shù)字的對應(yīng)上。前者如“團—團、糰”、“臺—臺、檯、颱”;后者如:“里—里、裏”、“后—后、後”等。要準(zhǔn)確對應(yīng),必須分清它們在不同語境中的不同含義。如“團”指事物聚合,而“糰”則是一種特別食品,在不同語境中要分別不同對應(yīng)。同音代替的簡繁字對應(yīng)更增加了復(fù)雜性。除簡繁對應(yīng)關(guān)系外,它本身在傳承字的繁體中也是一個獨立的并未簡化的字,這些字在兩岸是一樣的,如“里、后”。它們對應(yīng)的除繁體字“裏、後”外,還與傳承字“里、后”對應(yīng)。這種情況一般就容易轉(zhuǎn)換錯誤。
要解決上述問題,必須研究一個覆蓋所有簡繁對應(yīng)出現(xiàn)語境的語料庫,預(yù)設(shè)出不同語境中轉(zhuǎn)換的對應(yīng)關(guān)系。以前未能完全突破轉(zhuǎn)換的瓶頸,主要就是這個語料庫沒有研制好,缺乏簡繁字對應(yīng)關(guān)系出現(xiàn)不同語境的全部語料。這是一件要下大力氣才能完成的任務(wù)。這次研制的智能轉(zhuǎn)換系統(tǒng)就因為有這個語料庫作支撐,所以轉(zhuǎn)換正確率就大大提高了。
這次研制成的轉(zhuǎn)換系統(tǒng),與過去不少轉(zhuǎn)換系統(tǒng)相比還有一個鮮明的特點,即它明確是為海峽兩岸交流轉(zhuǎn)換服務(wù)的,也就是大陸用的是“規(guī)范字”,轉(zhuǎn)換后與之對應(yīng)的是臺灣的“標(biāo)準(zhǔn)字”(也就是臺灣當(dāng)局法定的規(guī)范字,繁體字在臺灣和香港之間就有差異)。這種簡繁字的對應(yīng)問題,過去主要靠手工操作,不僅費時費力,還常易出錯。現(xiàn)在有了這個“漢字簡繁文本智能轉(zhuǎn)換系統(tǒng)”,基本上可以一鍵搞定,不僅方便,還極大地提高了正確率。
這次研制的智能轉(zhuǎn)換系統(tǒng),還有一個優(yōu)于過去轉(zhuǎn)換系統(tǒng)的地方,即它不僅可以正確轉(zhuǎn)換簡繁字,還可以轉(zhuǎn)換兩岸不同的標(biāo)點符號和常用的科技術(shù)語。這可以使轉(zhuǎn)換的文本達到相互直接認(rèn)同的要求,無疑提高了轉(zhuǎn)換工作的質(zhì)量,拓展了轉(zhuǎn)換的空間。
該系統(tǒng)已免費供各需要轉(zhuǎn)換簡繁字的領(lǐng)域使用,真正為兩岸簡繁字文本正確、快速轉(zhuǎn)換搭建了一座金橋。(李行健 作者系語文出版社原社長、《兩岸常用詞典》主編)
《中國教育報》2015年2月26日第2版
[ 責(zé)任編輯:王怡然 ]
原稿件標(biāo)題URL:
原稿件作者:
轉(zhuǎn)載編輯:王怡然
原稿件來源:中國教育新聞網(wǎng)—中國教育報