みんなの自動翻訳@TexTra®

自分好みの自動翻訳エンジンを作ろう!

みんなの自動翻訳@TexTraでは、次の2つの方法により、もっと高精度の自動翻訳エンジン(MT)を作ることができます。

1.自動翻訳結果を修正するか、翻訳エディタを使用して翻訳します。

2.ご自身の対訳を提供します。

修正や翻訳により高精度MTを作る。

自動翻訳フォームの翻訳結果を修正した対訳データ(下図)や翻訳エディタで編集された対訳は、「汎用+EDITED+リサイクル」というMTで活用されます。

このMTは、修正や翻訳した対訳データで汎用NMTを改善したものです。

(改善の方法は、下で説明するアダプテーションを使います)

このMTを利用するには、自動翻訳フォームの「共有」で選択するか、次のようにします。

翻訳エディタワークスペースにて:[フォルダ情報] > [翻訳エディタ機能] > [自動翻訳]の[選択]をクリック。

[共有]を開き、「汎用+EDITED+リサイクル」を選択。

ご自身の対訳提供により高精度MTを作る。

ご自身の対訳文をご提供いただければ、「アダプテーション」という技術によって、自分好みの高精度自動翻訳エンジンを作れます。

分野にもよりますが、良い結果を得るには対訳文数は1万文程度は必要です。

対訳文が少ないと、かえって翻訳の質が下がります。

たとえば、

原文

Download the All download option.

汎用NMT

downloadオプションをダウンロードする。 (少し残念な訳)

アダプテーションMT(2千対訳文)

ダウンロード・オプションをすべてダウンロード。 (誤訳)

アダプテーションMT(1万対訳文)

ダウンロードオプション「All」をダウンロードする。 (完璧!)

やり方は簡単です。

Step 1. 対訳集を登録する。

Step 2. 対訳集に対訳文を登録する。

Step 3. アダプテーションMTを登録する。

Step 4. 自動翻訳エンジンを使ってみる。

それでは、詳しく見ていきましょう。

Step 1.対訳集を登録する。

メニュー > [翻訳データ] > [対訳集] で [+新規登録]ボタンをクリック。

対訳集名と翻訳方向(日→英など)を入力し[OK]をクリック。

Step 2.対訳集に対訳文を登録する。

1で作成した対訳集の名前をクリック。

[ファイルから登録]をクリックして対訳ファイルを選択。

対訳ファイルは拡張子がtsvで、[原文][タブ][訳文]を1行とするファイルとしてください。

Step 3.アダプテーションMTを登録する。

メニュー > [自動翻訳] > [アダプテーション] で [+新規登録]ボタンをクリックし、各項目を入力。

「データ」欄では上記1、2で作成した対訳集を選択してください。

最後に[訓練開始]をクリック(NICTのGPUで訓練が始まります)。

最初の[アダプテーション]画面で訓練の進捗状況を確認します。

[状態]が[完了(finished)]になったらアダプテーションMTを使用することができます。

Step 4.自動翻訳エンジンを使ってみる。

「自動翻訳フォーム」からアダプテーションMTを選択するか、次のようにします。

翻訳エディタワークスペースにて:[フォルダ情報] > [翻訳エディタ機能] > [自動翻訳]の[選択]をクリック。

[アダプテーション]を開き、3で作成したアダプテーションを選択。

あなたの対訳データで訓練された翻訳エンジンによる翻訳結果が得られます。

アダプテーションMTをもっと高精度化するカスタムMT

アダプテーションMTは、アダプテーションに活用した対訳データが少ない時には、汎用NMTよりも翻訳精度が低い場合があります。

ここでは、カスタムMTを利用することにより、汎用NMTとアダプテーションMTで良いと思われる自動翻訳結果を選択する方法を示します。

自動翻訳>カスタム>新規登録で、カスタムMTを登録します。

Step1で基本情報を登録し、Step2でベースの自動翻訳としてアダプテーションMTを設定します。

Step3 の「逆翻訳スコア採用」でアダプテーションMTの結果を逆翻訳して原文言語に戻すための汎用NMTを設定します。

同時に、もう一組同様なことをする汎用NMTのペアを設定します。

この設定により、設定した自動翻訳全てで自動翻訳&逆翻訳を実施し、リクエスト原文と逆翻訳の類似度スコアが一番高かった翻訳結果を採用します。

このように選択する理由は、原文と逆翻訳が似ているほど翻訳結果も良いと思われるからです。

本設定により、アダプテーションが有効に働くときには、アダプテーションMTの自動翻訳結果が採用され、そうでない場合には汎用NMTでの翻訳結果が採用されることが期待できます。

また、もし、アダプテーションに利用した対訳データが50万文以上あるようでしたら、アダプテーションMTの性能は、通常とても高いと思われます。その場合には、アダプテーションMTだけを使用しても良いと思います。

けれども、次のような方法もあり得ます。

日英方向の翻訳の場合には、アダプテーションにより日英方向のNMTを二つ(JE1とJE2)と、英日方向のNMT(EJ)を一つつくります。

そして、上記の選択に利用するペアとして、JE1⇔EJ と JE2⇔EJの2ペアを採用します。

こうする理由は、みんなの自動翻訳では、アダプテーション訓練毎に少しずつ違うMTエンジンができるので、それらの少し違うMTエンジンの少し違う自動翻訳結果を比較して、どちらか良いと思われる方を選択することが有効だからです。

ちなみに、日英・英日双方向が必要な場合には、日英方向には、JE1⇔EJ1 と JE2⇔EJ1のペアを採用し、英日方向には、EJ1⇔JE1 と EJ2⇔JE1のペアを採用します。

このときのポイントは、逆翻訳のエンジンは同一のものを使うことです。

これにより、同一の基準で順方向のエンジンを比較可能です。

複数エンジンを使う方法の欠点は、自動翻訳速度が遅いことです。そのため、速度と精度のバランスを考えて採用する必要があります。