2008年5月12日

Fun with Google Translate

昨天一時興起,考一考 Google Translate。(假如你不知道的話,根據公評古狗翻譯大神是目前最棒的自動翻譯機)

先來簡單的:「壓扁」,答曰「crash」,so far so good。

那麼「壓不扁」呢? 要不要猜猜答案是什麼....Ready?
"Pressure is not Chen Shui-bian"

這個很有意思。那「壓不扁的」呢?
“Chen Shui-bian's no pressure”

那麼,楊逵的小說「壓不扁的玫瑰」呢?
"Chen Shui-bian did not pressure the roses"

唔,單吊一個「扁」字呢?呵呵,果然是
"Chen Shui-bian"

先別說 WTF... Google Translate 用的方法叫 statistical translation models,根据古狗的說明
we feed the computer billions of words of text, both monolingual text in the target language, and aligned text consisting of examples of human translations between the languages. We then apply statistical learning techniques to build a translation model. We've achieved very good results in research evaluations.
看來問題出在古狗的語庫 (corpus) 上,古狗翻譯用Internet上的中文語詞做為其模型的輸入,而阿扁執政八年以來網路上的「扁」這個字有很大的比例指向「陳水扁」,古狗翻譯用這個 heavily skewed 的詞庫來規訓 (train) 它的翻譯機,「差之毫厘,失之千里」也就難怪了。

又:「差之毫厘,失之千里」的古狗翻譯是 「Hao Li of the poor, suffer from a thousand miles」,挺有禪的味道,是不?

2008年5月6日

May you live in interesting times

本月初台灣媒體有這麼一則「新聞」“823砲戰美軍建議對廈門動用核武”,內容引用 Washington Post 四月三十號的報導 Eisenhower advisers discussed using nuclear weapons in China。老實說艾森豪政府在 1955 和1958 年的兩次台海危機中揚言動用核武已是半個多世紀前的舊聞了,唯一堪稱「新聞」的只是當年的美方相關的機密文件如今逐漸解密,有心人可以上 National Security Archive 去瀏覽。

這一則報導給人一個印象:看起來58年艾森豪英明地裁示「無法接受所謂核武器與高能炸藥都屬傳統武器」從而否決了軍方的瘋狂建議。然而實際上在 55 年第一次台海危機時那也是同一個艾森豪力主動用核武嚇阻老毛解放台澎金馬。艾帥當時的名言是
"I see no reason why they [the nulcear weapon] shouldn't be used just exactly as you would use a bullet or anything else"
當時的副總統尼克森也放話 "tactical atomic weapons are now conventional and will be used against the targets of any aggressive force." 這些狠話讓許多人毛骨悚然,but guess what? It worked,解放軍終究沒越雷池一步。但這一招也把沒有核武的老毛刺激到快要不行,發誓「寧要核子,不要褲子」。十年以後美國經歷過古巴飛彈危機,自己受到 nuclear blackmail 的教訓後,Lyndon Johnson 才有了深刻體會,說出:
"Make no mistake. There is no such thing as conventional nuclear weapon."

冷戰時的人類幾次接近準核戰邊緣而竟能安然度過,不能不算是老天保佑。今天的新新人類大概很難想像當年的氣氛,也許只能從電影 Dr Strangelove 依稀體會 "how I learned to stop worrying and love the bomb" 是怎麼回事哩。