2010年8月13日

統計的機械翻訳 って、何ですか?

Dialog の 中国特許全文データベース「Chinse Patents Fulltext(以下 CPF)」には、機械英訳された中国特許の全文が収録されています。

今日は、この CPF で使われている機械翻訳技術である『統計的機械翻訳』について、ご紹介しましょう。


まずは、こちらの文献(Japio 2007 YEAR BOOK 「特許と機械翻訳の新たなトレンド「統計翻訳」」著者:隅田英一郎 氏)をご覧ください。


はい、とっても良くわかりましたね、 それでは、また!...

というぐらい、分かりやすく説明してあります。
実は私も、この文献で勉強しました。



CPFの統計翻訳もこの文献で紹介されている「フレーズベースの統計翻訳」を使って、中国語から英語への翻訳がおこなわれています。
先の文献中でも、その翻訳プロセスの解説がありましたが、下記のステップで翻訳がなされます。

-------------------------------------------
① 文章をフレーズ単位に分割処理する



② 各フレーズを確率的に翻訳する



③ 各フレーズの順番を確率的に並び替える

-------------------------------------------

「翻訳」や「文章の構成」が統計確率的に高いもの採用されるので、作成される翻訳文は、比較的に自然な文章に近いものが得られやすい、みたいです。


では、この統計の根拠になるデータは、一体何なんでしょうか?

CPFに使われている翻訳エンジン「MatrixWare」は、次の統計データをベースに翻訳をおこなっています。

★ 400万件以上中国特許から抽出した「中国語の文章」とそれに対応する「人間が英訳した文章」

★ WO、EP、US特許明細書から抽出した100万件以上の「英語の文章」


いずれも特許明細書から抽出した文章がベースになっているので、当然、特許の特有の表現にも強いようです。
さらに、各特許分野における専門家(中国語のネイティブスピーカー)が翻訳結果をチェックし、翻訳エンジンの品質の向上が図られている、とのことです。


皆さんも一度、Chinse Patents Fulltext を試して、その翻訳精度について、評価してみてください!