翻訳データ - みんなの自動翻訳＠TexTra®

翻訳データについて

翻訳データとは自動翻訳や各ツールで利用する、テキストデータの集まりのことです。

種別

翻訳データには、以下の種別が存在します。

用語

用語集です。

翻訳時に訳語を指定する場合などに利用します。

(例)

hello - こんにちは

対訳

対訳集です。

翻訳時に原文に対応した訳文で翻訳したり、各ツールで例文として利用したりします。

(例)

This is a pent. - これはペンです。

正規表現

正規表現集です。

翻訳時に正規表現を使い、文字を変換させる場合などに利用します。

(例)

* - $1

データ構造の親と子について

データ構造

翻訳データは必ず「親子関係のデータ構造」を持っています。

(例)用語集

用語集 - 用語

翻訳データを登録する場合、まずは親データを作成した後に、その親データに対して子データを登録していきます。

(例)

「用語集Ａ」を登録後、「用語集Ａ」に対して「hello - こんにちは」を登録する。

翻訳データの一覧画面について

翻訳データ一覧画面の構成について説明します。

(1) メニューから[翻訳データ]を選択します。

(2) 翻訳データ一覧画面が表示されます。

項目	説明
(1) 名前	「翻訳データ」の名前を表示します。
(2) 登録数	登録されている「子翻訳データ」の数を表示します。
(3) 言語方向	「翻訳データ」の言語方向を表示します。
(4) 対訳提供	「翻訳データ」の対訳提供を表示します。
(5) 操作	「翻訳データ」を操作するボタンです編集・ダウンロード・削除を行えます
(6) 状態	ファイルを使用した登録の処理状態を表示します。

親翻訳データの登録

はじめに

はじめに親データを登録し、その親データに対して子データを登録していきます。

※以下、種別「用語」で説明します。

親データ登録

親データを登録します。

※すでに親データを登録している場合は省略可能です。

(1) メニューから[翻訳データ]を選択します。

(2) [用語集]を選択します。

(3) [新規登録]ボタンを押します。

(4) フォームの各項目を入力します。

項目	説明
名前	用語集の名前
言語方向	用語集の言語方向
対訳提供	「許可」にすると、情報通信研究機構（以下、当機構という。）が当データを自動翻訳技術の研究開発の目的に使用することを許諾します。「不許可」にすると、当機構は当データを使用しません。

(5) 全て入力し終わったら[OK]ボタンを押します。

登録が成功すると「処理が完了しました。」と表示され、[戻る]ボタンを押すと画面に登録した用語集が表示されます。

親翻訳データの編集

※以下、種別「用語」で説明します。

(1) メニューから[翻訳データ]を選択します。

(2) [用語集]を選択します。

(3) [編集]ボタンを押します。

(4) 以降は登録時と同じ手順となります。

親翻訳データの削除

※以下、種別「用語」で説明します。

(1) メニューから[翻訳データ]を選択します。

(2) [用語集]を選択します。

(3) [削除]ボタンを押します。

(4) 削除する項目を選択後、[一括削除]ボタンを押します。

(5) 確認ダイアログが表示されますので、[OK]ボタンを押します。

削除が成功すると、成功画面が表示されます。

注意

子翻訳データも削除されます。

一度削除すると、元に戻すことはできません。

子翻訳データの登録

はじめに

親データに対して子データを登録していきます。

※以下、種別「用語」で説明します。

子データ登録

子データの登録方法は、一つずつ登録する方法と、ファイルで一括して登録する方法があります。

一つずつ登録

(1) メニューから[翻訳データ]を選択します。

(2) [用語集]を選択します。

(3) 用語を登録する用語集を押します。

(4) 入力フォームの「原テキスト」と「訳テキスト」を入力します。

(5) 全て入力し終わったら[登録]ボタンを押します。

登録が成功すると、画面に登録した用語が表示されます。

ファイル一括登録

(1)メニューから[翻訳データ]を選択します。

(2)[用語集]を選択します。

(3)用語を登録する用語集を押します。

(4)[ファイルから登録]ボタンを押します。

(5)ファイル入力フォームが表示されますので、ファイルを選択します。

登録が成功すると、「処理中」状態になります。

※登録には時間が掛かる場合があります。

子翻訳データの編集

※以下、種別「用語」で説明します。

(1) メニューから[翻訳データ]を選択します。

(2) [用語集]を選択します。

(3) 対象用語が登録されている用語集を押します。

(4) 対象用語の「原テキスト」か「訳テキスト」を押します。(押すと表示が入力フォームに変わります。)

(5) 「原テキスト」、「訳テキスト」を編集します。

(6) 全て入力し終わったら[更新]ボタンを押します。

成功すると、表示が編集した用語に変わります。

子翻訳データの削除

※以下、種別「用語」で説明します。

(1) メニューから[翻訳データ]を選択します。

(2) [用語集]を選択します。

(3) 対象用語が登録されている用語集を押します。

(4) 対象用語の[削除]ボタンを押します。

成功すると、画面が削除されます。

翻訳データの検索

※以下、種別「用語」で説明します。

(1) メニューから[翻訳データ]を選択します。

(2) [用語集]を選択します。

(3) 検索対象の用語集を押します。

(4) 用語集名の下の検索フォームに、検索キーワードを入力して[検索]ボタンを押します。

翻訳データのダウンロード

※以下、種別「用語」で説明します。

(1) メニューから[翻訳データ]を選択します。

(2) [用語集]を選択します。

(3) [ダウンロード]ボタンを押し、tsv, tmx, csvから形式を選択します。

成功すると、zip形式で圧縮されたファイルのダウンロードが開始されます。

正規表現集のデータ形式について

正規表現集のデータ形式について説明します。

「正規表現パターン」には、対象文字列の置換場所を指定するための、正規表現を入力します。

「置換パターン」には、「正規表現」で指定した置換場所の置換文字列を入力します。

正規表現パターン

(1)基本的な正規表現

正規表現	説明
.	改行を除くすべての文字
[]	角括弧に含まれるいずれか１文字
*	直前の文字を0回以上繰り返す
+	直前の文字を1回以上繰り返す
?	直前の文字を0回または1回繰り返す
{n}	直前の文字をn回繰り返す
{n,}	直前の文字をn回以上繰り返す
{n,m}	直前の文字をn回からm回まで繰り返す
\|	いずれかの条件 (OR条件) として使用
()	文字を１つにグループ化
-	文字の範囲の指定
^	角括弧の中の否定

(2)定義済みの正規表現

正規表現	説明
\t	タブ
\n	改行
\r	復帰
\d	すべての数字([0-9]と同意)
\D	すべての数字以外([^0-9]と同意)
\s	垂直タブ以外のすべての空白文字([ \t\f\r\n]と同意)
\S	すべての非空白文字([^ \t\f\r\n]と同意)
\w	すべての半角英数字とアンダースコア([a-zA-Z_0-9]と同意)
\W	すべての半角英数字とアンダースコア以外([^a-zA-Z_0-9]と同意)

(3)特定の位置関係の正規表現

正規表現	説明
^	直後の文字が行の先頭にある場合
$	直前の文字が行の末尾にある場合

置換パターン

(1)置換文字記号

置換文字記号	説明
$1 ~ $9	一致した文字列の１～９番目に対応する文字列に置換

翻訳データ PDF

翻訳データについて

種別

用語

対訳

正規表現

データ構造の親と子について

データ構造

翻訳データの一覧画面について

親翻訳データの登録

はじめに

親データ登録

親翻訳データの編集

親翻訳データの削除

子翻訳データの登録

はじめに

子データ登録

一つずつ登録

ファイル一括登録

子翻訳データの編集

子翻訳データの削除

翻訳データの検索

翻訳データのダウンロード

正規表現集のデータ形式について

正規表現パターン

置換パターン

メニュー

本サイトについて

自動翻訳バージョン

最終ログイン日時

翻訳データ PDF

翻訳データについて

種別

用語

対訳

正規表現

データ構造の親と子について

データ構造

翻訳データの一覧画面について

親 翻訳データの登録

はじめに

親データ登録

親 翻訳データの編集

親 翻訳データの削除

子 翻訳データの登録

はじめに

子データ登録

一つずつ登録

ファイル一括登録

子 翻訳データの編集

子 翻訳データの削除

翻訳データの検索

翻訳データのダウンロード

正規表現集のデータ形式について

正規表現パターン

置換パターン

メニュー

本サイトについて

自動翻訳バージョン

最終ログイン日時

親翻訳データの登録

親翻訳データの編集

親翻訳データの削除

子翻訳データの登録

子翻訳データの編集

子翻訳データの削除