Translation APIで用語集が使用されない
固有名詞(人名や組織名)を含めて適切に翻訳を行いたいという要件あり、用語集を設定した上でTranslation APIを利用したいと考えています。
こちらのサイト(https://cloud.google.com/translate/docs/how-to)を参考に用語集を設定して翻訳を行ってみたのですが、用語集の登録にできたものの、用語集登録前後で翻訳結果が全く変わりません。つまり用語集が翻訳に使用されていないように見えます。
原因が全くわからない状況が続いており、何か原因についてアドバイスをいただけないでしょうか。
検証内容は以下の通りです
2パターンの用語集ファイルを作成
- Unidirectional glossary:en->es, en->ja, ja->en, ko->en, ko->ja
※ko->enの例(一部抜粋)
박,Park 임,Im 장준,Jangjoon 재문,Jaemoon 박장준,Park Jangjoon 임재문,Im Jaemoon
- Equivalent term sets glossary:[ko, ja, en], [en, ja, es]
※[ko, ja, en]の例(一部抜粋)
ko,ja,en 박,パク,Park 임,イム,Im 장준,ジャンジュン,Jangjoon 재문,ジェムン,Jaemoon 박장준,パク ジャンジュン,Park Jangjoon 임재문,イム ジェムン,Im Jaemoon 박박박,あああ,aaa 박박박박,ああああ,aaaa
- Unidirectional glossary:en->es, en->ja, ja->en, ko->en, ko->ja
用語集作成
用語集の作成は正常に行われているようでした。
以下を参考にpython-clientで、作成済みの用語集をlistupしました。
https://cloud.google.com/translate/docs/glossary?hl=ja#list-glossariesName: projects/stg-astamuse-astamuse/locations/us-central1/glossaries/en-to-es Entry count: 2 Input uri: gs://stg-astamuse-astamuse-vcm/google_translation_api/glossaries/en_to_es.csv Name: projects/stg-astamuse-astamuse/locations/us-central1/glossaries/en-to-ja Entry count: 1 Input uri: gs://stg-astamuse-astamuse-vcm/google_translation_api/glossaries/en_to_ja.csv Name: projects/stg-astamuse-astamuse/locations/us-central1/glossaries/ja-to-en Entry count: 3 Input uri: gs://stg-astamuse-astamuse-vcm/google_translation_api/glossaries/ja_to_en.tsv Name: projects/stg-astamuse-astamuse/locations/us-central1/glossaries/ko-to-en Entry count: 36 Input uri: gs://stg-astamuse-astamuse-vcm/google_translation_api/glossaries/ko_to_en.tsv Name: projects/stg-astamuse-astamuse/locations/us-central1/glossaries/ko-to-ja Entry count: 5 Input uri: gs://stg-astamuse-astamuse-vcm/google_translation_api/glossaries/ko_to_ja.csv
python-clientで翻訳
- 以下を参考にpython-clientで翻訳しました
https://cloud.google.com/translate/docs/glossary?hl=ja#v3 - 翻訳自体は実行され、特にエラーは発生しないものの、翻訳結果が用語集登録前後で全く変わりません
- ja->en, ja->ko, ko->ja, ko->en, en->es, en->ko, en->jaの翻訳方向試しました
- tsv、csvの両方を試しました
- 単語の文字数を1文字〜7文字まで試しました
- 翻訳対象の文字列として、姓だけ、名だけ、姓名、文章などある程度のパターンを試しました
- 以下を参考にpython-clientで翻訳しました
その他
- GCSのリージョンはus-central1です。
- translate-textする際にもus-central1を指定しています。
- translate-textする際に、modelは特に指定しておりません。
- 以下の権限は付与しております
cloudtranslate.glossaries.create cloudtranslate.generalModels.predict automl.models.predict cloudtranslate.glossaries.predict