語言翻譯/機器翻譯漫談

出自 Tw.18dao.net
前往: 導覽搜尋


  機器翻譯(machine translation),又稱機譯(MT),是利用電腦把一種自然語言轉變成另一種自然語言的過程。用以完成這一過程的軟體叫做機器翻譯系統。

  世界上許多國家長期以來都一直在從事這項研究。事實上自本世紀40年代電子電腦誕生之日起就開始了將電腦應用于語言翻譯的探索。我國機器翻譯的研究可以追溯到50年代中期。今年是我國第一次機器翻譯試驗成功演示的40周年。40年前的那次試驗雖然規模不大,但是在當時已經是世界水準了。當時世界上能進行這樣試驗的國家實在是屈指可數。半個世紀以來,世界範圍和我國的機譯研究都曾走過一段曲折的道路,都有過60年代中期以後約10年的停滯或沉寂,不過原因不盡相同。國外主要是受了美國曾專門組織的一個機構於1966年發表的機譯界無人不曉的ALPAC報告的影響,紛紛停止了對機器翻譯研究的經費支持。ALPAC報告主要說的是:經過調查,機器翻譯速度慢,準確率差,比人工翻譯費用高得多,在近期或可以預見的未來,開發出實用的機器翻譯系統是沒有指望的。

  這個報告後來雖曾受到許多嚴肅的批評,認為它是帶有嚴重偏見的,但它還是對機器翻譯研究造成了很大的損害。直到70年代中期機器翻譯才開始在世界範圍內復蘇並日趨走向興旺。日本卻是極少數未受世界範圍的停滯影響的國家。80年代初日本幾乎所有的大電腦公司都進行機器翻譯系統的研究和開發,如富士通、日立、日本電氣、東芝、夏普等。日本在推動機器翻譯研究方面的貢獻為世界所公認。在它的宣導下,於1987年在日本箱根舉行了第一屆機器翻譯峰會(MT Summit),並決定以後每兩年輪流在亞、歐、美定期舉行。不久又相繼成立了亞太機器翻譯協會,歐洲機器翻譯協會,北美機器翻譯協會,以及國際機器翻譯協會,還定期出版了《機器翻譯通訊》。今年九月在新加坡舉行了第七屆峰會,它也是本世紀的最後一次峰會,其主題是"迎接新世紀翻譯的機器翻譯"。我國有代表應邀?quot;世界各地機譯進展"的主題研討會上介紹了我國的機器翻譯研究和開發的現狀,還有代表應邀參加了經費投資的主題研討會並介紹了我國各種管道對機器翻譯研究的投資狀況。筆者應邀在會前的學術研討會上做了題為《英漢/漢英機器翻譯的過去、現在和未來》的報告。

  如今機器翻譯對於許多人來說應該已經不是很陌生的的詞兒了。今天我們可以在軟體商店買到形形色色的PC機譯軟體,各種語言對的,如英文到中文的,中文到英文的,或者日文到中文的,甚至也有英文到日文的等等,還有什麼家庭版的,專業版的,配帶各種不同專業詞典可供選擇的等等。據估計,世界上目前市場上有1000多種不同的機器翻譯軟體在銷售,我國具有一定規模的PC機器翻譯軟體也有近20種。在世界範圍內PC機譯軟體的價格都不貴,而且價格還在不斷地下降。現在我們甚至可以在網上免費享用翻譯系統的服務。因此現在用戶已有較大的選擇餘地。當然一個用戶在選擇機譯系統時,應該首先很好地弄清自己的需求。具體來說,我們有如下的建議。

  第一,如果你的翻譯任務是較穩定的或長期的,專業單一的,翻譯結果要達到出版水準的,你可能是一個翻譯公司、或一個專業情報所,那麼你可以選擇配有大規模相應領域的專業詞典的,並且又經得起大批量、長時間翻譯運行的(有的系統會死機的)系統。同時更理想的是你還可以再配備一個"翻譯記憶"系統,它可以幫助你處理文本格式問題(如字體、圖表、註腳等),而且可以把你經過修改的正確譯文保存起來供以後翻譯時再利用。

  第二,如果你的翻譯任務是臨時性的,專業不單一,翻譯品質要求無須達到出版水準的,那麼你可以選擇配有多個領域的專業詞典的,但還是應經得起大批量、長時間翻譯運行的系統。

  第三,如果你是為了流覽網上資訊要用到翻譯,那麼你一定要選擇可以在網上運行的系統。如果你的外語水準還可以但辭彙量有限,那麼還可以選擇一種只有大規模詞典但可隨點隨譯的系統。

  今天機器翻譯比起10年前,可以說相當繁榮。但是我們願意提醒,在這繁榮的後面,卻存在著危機。前面說到那個ALPAC報告曾給機器翻譯帶來的創傷如今似乎已被撫平了。但實際上它的陰影始終會時不時地再出現在機譯研究者的頭上。如今隨著有越來越多的機譯系統走向市場,政府的投資者感到在這種情況下如果還要投資攻關似乎有點名不正言不順了。而商家則只是想現在該是把現成的技術包裝包裝就可以賺錢的時候了。經常會聽到老闆們會這樣問研究者,"你估計開發出產品要多長時間?你的系統正確率如何?",大概沒有一個研究者會回答說,將?quot;正確率大約在百分之五十左右"的。如果果真那樣回答,那麼他的項目還不當場就被"槍斃"了。可是現有的機譯系統(不僅是英漢或漢英,國外的其他語言對的系統)在面對真實文本時,其正確率實際上有多少呢?機譯的譯文品質確實還遠不能令人滿意。近來國外有些人挖苦地說"MT,不是machine translation的縮寫,而是mad translation (瘋子的翻譯)的縮寫。他們是近乎要跟機譯來番決戰似的。他們勸說人們不要購買機譯系統,要翻譯的話應該雇翻譯人員。國內也有人諷刺地說,有了機器翻譯,"滿篇英文難不住,滿篇中文看不懂"。這些固然是比較極端的評價,但機譯譯文品質確實一直是個老大難問題。著名的機譯評論家Hutchins在最近的機器翻譯峰會上的發言中說,機譯譯文品質至今並沒有取得實質性的進展,很多50年前未解決的問題如今依然存在。還有一種更加深層的危機,那是來自研究人員自身的。他們說"在現有的技術條件下,機譯譯文品質也只能這樣了。"說這話時似乎他們不是"現有的技術條件"的創造者。這樣一來,可能出現的情況將是投資者和研製者都在以較低水準的系統忙於行銷賺錢,而不再有足夠的經費和技術投入。機器翻譯無論在理論上或是技術上都還未成熟。現在只是由於人們對於克服語言交流的障礙有著很強烈的需求,尤其是網際網路的出現這種需求更顯突出,機器翻譯才獲得了以較低的譯文品質滿足這種需求的機會,並利用這一機會來求得進一步的發展。我們對這一現實要有清醒的認識。在行銷上,應切忌不切實際的宣傳。現在在報紙雜誌上常能見到關於機器翻譯系統的過度誇張的宣傳。從長遠看,這?quot;自砸牌子"的不智作為。正確的做法是把產品拿到用戶那裏去,老老實實地告訴他們機譯系統能做什麼和不能做什麼,如何來利用它,利用它之所長,避它之所短。同時根據用戶的需求來調試和改進系統。換句話說,多做培養用戶,培養系統,培養市場的工作。近20年左右,機器翻譯研究的方法真可謂花樣翻新,令人目不暇接,有基於規則的、基於知識的、基於語料庫的、基於統計和語料庫的、基於例子的、基於對話的等等,從另一種角度,還有直接法、轉換法、中間語言法等等。但其中哪一種也未能在翻譯品質上取得實質性的突破。如何才能取得實質性的改進呢?我們不妨先對現有的機譯和人譯做一番比較。

  機譯:

  1.一句一句處理,處理第一句時不知道第二句的內容是什麼,處理第二句時,也不再去參考第一句的內容了;

  2.對源語言的分析只是求解句法關係,完全不是意義上的理解;   3.它的開發者要求它幾乎是萬能的,它似乎什麼領域都能應付,從電腦到醫學,從化工到法律,似乎只要換一部專業詞典就可以了;

  4.它的譯文轉換是基於源語言的句法結構的,受源語言的句法結構的束縛;

  5.它的翻譯只是句法結構的和辭彙的機械對應。

  人譯:

  1.一般會先通讀全文,他會前後照應;

  2.對源語言是求得意義上的理解;

  3.只有專業翻譯人員,沒有一個是可以包打天下的萬能翻譯人員的;

  4.他的譯文是基於他對源語言的理解,不受源語言的句法結構的束縛;

  5.他的翻譯是一個再創造的過程。

  機器翻譯研究歸根結底是一個知識處理問題。它涉及到有關語言內的知識、語言間的知識、以及語言外的世界知識,其中包括常識和相關領域的專門知識。我認為從實用的角度看,全自動高品質的機器翻譯不應該是個目標,至少不應該是近期的目標,但是從研究的角度說,全自動高品質卻應該是個目標。因為這樣我們不僅能夠建立機譯系統,而且能夠探索人譯的機制。近年來我在許多場合都強調機器翻譯應該到了有所突破、有所創新的時候了。下個世紀的機器翻譯研究應在如下三個方面有所突破:

  第一,大語境,而不再是一個句子一個句子孤立地處理;

  第二,基於理解,而不再是停留在句法分析的層次上;

  第三,高度專業化、專門化,而不再是個"萬事通,樣樣松"了。

  在九月的峰會上幾位機譯權威教授都一致提出要進行深層次的基礎研究,使對於源語言的分析基於理解。呼籲投資者加大對於基礎研究,如大規模知識詞典建設的投入。筆者經過十多年的努力建立的大型知識系統《知網》,今年已上網供研究免費使用。它引起了海內外學者的廣泛注意,並已有人在它基礎上開始進行新的探索,如上面介紹的基於理解的分析以及新的排除歧義的方法。請讀者流覽www.how-net.com 網頁。

  隨著網際網路的普及,隨著資訊時代的到來,機器翻譯的應用前景是廣闊的。作為人類探索自己智慧和操作知識的機制的視窗,機器翻譯研究將更加誘人。願50年來尚未解決的問題會在新世紀裏得到解決。

關于“語言翻譯/機器翻譯漫談”的用戶留言:

目前暫無留言

新增相關留言✍