みんなの自動翻訳@TexTra®

みんなの自動翻訳@TexTraでは、ユーザのみんなが登録した対訳を利用して、自動翻訳(MT)を育てることができます。ここでは、その方法を説明します。方法としては、「汎用+」MTを育てる方法と、「オリジナルMT」を作る方法があります。ただ、その前に、自動翻訳を育てる基本としての「訳語指定」をすることにより、思い通りの訳語が出力できることを説明します。

訳語指定をすると思い通りの訳をMTが出力します。

MTでは、思い通りの訳を出すことが自由自在にできるわけではありません。その理由としては、MTが発展途上ということに加えて、あなたの意図をMTが理解しているわけではないことがあります。

そのため、訳語を指定することにより、MTで思い通りの訳を出すことを考えます。なお、このようにして訳語を指定した場合には、その単語については思い通りの訳語がでても、それ以外の部分については、訳語を指定しない場合よりも、かえって変な翻訳になることがあります。

MTにとって、難しい文として、「The bank is at the bank」を考えます。一番目の「bank」 は「銀行」、2番目の「bank」は「土手」として訳してほしいとします。これを2016年10月27日現在のみんなの自動翻訳の汎用MTで英日翻訳をすると、「銀行は銀行である。」と翻訳されます。

次に、「訳語位置指定翻訳」を押して、訳語を指定する用語の位置を選択します。選択の仕方は、左クリックで最初の文字を決めて、次の左クリックで最後の文字を指定します。ここでは、2番目の「bank」を指定します。もし、用語集に「bank」が含まれていれば、bankの訳語が訳語として選択されます。用語集がないときや、この場で訳語を指定したいときには、入力欄にたとえば「土手」と記入します。その結果として、「銀行は土手にいます。」という翻訳になりました。

対訳集や用語集を登録すると「汎用+」MTが育ちます。

みんなの自動翻訳では、NICT所有の対訳データに対して、ユーザのみんなが登録した対訳集・用語集を追加することにより「汎用+」MTを月に2回訓練しています。(なお、「汎用」MTはNICTの対訳データのみから作成されています)

対訳データの登録

対訳データは次のようにして登録します。デフォルトの対訳集があるので、そこに登録することにします。(別の対訳集に登録したいときには、まず、新規登録で対訳集自体を登録してください)

1. 対訳集の名前をクリックします。

2. ファイルから登録をクリックして、TSVファイルを登録します。TSVファイルの形式は、各行が次のようになっています。<TAB>はタブを意味します。

原言語文<TAB>翻訳言語文

「登録」をクリックすると登録処理が始まりますので、処理が終わるまでお待ちください。処理が終わると登録されたデータを閲覧できます。

3. 登録された対訳データは、「汎用+」MTのエンジン作成に活用されますので、しばらくすると、登録された文章と似ている文章の翻訳性能が向上すると思います。それに加えて、自分が登録した対訳データについては、MTへの入力文と一致した場合に、その訳文が対訳データから直接取り出されます。なお、一致による出力の機能は自分が登録した対訳文のみに適用されます。他人の対訳文には適用されません。

翻訳結果を修正してみよう!

「履歴」をクリックすると、これまでの機械翻訳の結果を閲覧できます。これを「正しく編集」してから「対訳登録」すると、それに紐づいているオリジナルMTや結合MT(後述)が、1日に1回自動的に更新されますので、いつの間にかMTエンジンが賢くなります。

オリジナルMTを作ってみよう!

1. 登録した対訳データを活用して、オリジナルMTを作れます。

メニューの[自動翻訳 > オリジナル > 新規登録]から作成します。

「訓練」をクリックすると、オリジナルMTの訓練が開始します。処理が終了するまでしばらくお待ちください。

2. オリジナルMTは、ベースとして選択したエンジンと結合することにより、性能が向上します。[自動翻訳 > 結合 > 新規登録]で登録します。その結果として、この場合には、MyMT日英(汎用+)MTエンジンができます。

3. 作成したMTは自動翻訳に活用できます。

下の図では、MyMT日英(汎用+)が、登録した文と少し違う文を非常にうまく翻訳していることがわかります。

カスタムMTを作ってみよう!

カスタムMTは登録した用語集を使うことができます。

用語集の登録

用語集を登録することにより、特定の用語の訳を指定することができます。けれども、この機能は、用語集を最優先として単純な文字列一致で変換しているため、たとえば、「ます」を「trout」と登録すると、文末の「~します。」等が影響を受けてそこら中の文に、trout が出てきてしまいます。そのため、使い方に注意してください。

[自動翻訳 > カスタム > 新規登録]

でカスタムMTを作ることができます。出来上がったカスタムMTについては、一覧のところでみると、その右端に「調整」というボタンがあります。これをクリックすると、どのような入力文について、どのような対訳集・用語集が活用されているかがわかります。

カスタムMTについてはまだ開発途上ですが、うまく使えば、だいぶ役に立ちます。

1. 用語集に用語を登録します。たとえば、「情報通信研究機構」の訳語として「NICT」を登録します。

2. カスタムMTとして上記用語集を訳語指定に指定します。ここではベースには「汎用」を指定しますが、実際には、好みのものを指定してください。

3. 翻訳結果に訳語が反映されています。

なお、用語集に登録する単語は慎重に選んでください。そうでないと、「ます」「trout」のようになるので、かえって、翻訳精度が悪化します。部分的に一致する可能性が高い短い平仮名や短いカタカナ語の登録は特に注意が必要です。

用語集の定型表現

用語集には、「定型表現」として、日本語定型表現と英語定型表現のTSVファイルも登録できます。たとえば、次のような内容です。

ここに[x,1]グラムの[x,2]を入れます。 I will put a [x,2] grams [x,1] here.

定型表現を登録した場合には、Xにマッチする用語集も同時に登録してください。指定しない場合はパターンマッチ翻訳は行われません。また、指定した用語集内の原文用語に変数部分がマッチしない場合にもパターンマッチ翻訳は行われません。なお、数字や記号やURLが変数部分にマッチする場合には、それらが用語集内に存在しない場合であっても、それらマッチした部分がそのまま訳語として利用されます。定型表現の x がマッチした内容については、「調整」画面で確かめることができます。

完全一致翻訳

[履歴を使用する]

これをチェックすると、このMTで過去に翻訳した入力文と一致した入力がきた場合には、そのMT結果を出力します。また、もし、「履歴」におけるMT結果が修正されているときには、修正結果が出力されます。これにより、過去の翻訳結果を再利用できますので、翻訳速度が速くなるとともに、修正結果が適切に反映されます。

訳語位置指定翻訳

ここで用語集を指定すると入力中の任意の位置にある文字列の訳語を指定できます。

WebAPIを使ってみよう!

更なるカスタマイズのためには、WebAPIを使うこともできます。たとえば、箇条書きは翻訳に失敗することが多いので、箇条書きのときには、文だけを翻訳するとかです。

たとえば、入力文が「***** 必要な用具を持ってきてください。 *****」の場合には、「必要な用語を持ってきてください。」のみを機械翻訳して、あとから、「*****」を自作プログラムでくっつけた方が翻訳性能が高くなるかもしれません。

また、入力する文が長くなると、機械翻訳に失敗する確率が高まりますので、短い文にするとか、もしパラグラフが入力されたときには、それを1文ずつに切ってから翻訳するとかが考えられます。

さらに、Webサイト上での自動翻訳での訳語位置指定翻訳と同様なことを、WebAPIですることも可能です。つまり、文中で翻訳する必要がない場所や訳語を指定したい場所についてWebAPIを利用して文字位置により指定して、その場所の訳語を指定することが可能です。これは、数式などの翻訳する必要がない場所が文中にある場合にも有効です。