【第11回】日本企業のグローバル展開を支える、高精度国産自動翻訳エンジン「翻訳バンク」とは
(画像=情報通信研究機構(NICT)提供/THE OWNER編集部)

ビジネスの現場において、自動翻訳のニーズは高まる一方だ。各企業は事業やサービスをグローバル展開するために、海外企業の動向や各国特有の事情を知っておく必要がある。その際に、現地の文書や記事からの情報収集が必須となるからである。

翻訳アルゴリズムの進化と学習データの増加により、自動翻訳の精度は年々高まっている。しかし、特有の業界用語も正確に翻訳できるシステムを一つの民間企業がつくり上げることは難しいと言える。

「ステークホルダーが協調して高精度化された自動翻訳エンジンをつくる」ことを目的とし、学習に必要な翻訳データの収集と多言語自動翻訳システムの社会実装を行っている公的活動に「翻訳バンク」がある。データを提供すれば、業界ごと、企業ごとに適切な自動翻訳システムをつくることができるという。オンプレミス稼働が可能なので、セキュリティ面での不安もほとんどない。

では、実際にどのような企業がデータを提供し、自動翻訳システムを活用しているのか。そして、このサービスを活用するメリットとその方法とは? 翻訳バンクの主体である国立研究開発法人情報通信研究機構(NICT)の隅田英一郎氏に聞く。

隅田英一郎
隅田英一郎(すみた・えいいちろう)
日本IBM、国際電気通信基礎技術研究所を経て国立研究開発法人情報通信研究機構。現在、同機構 先進的音声翻訳研究開発推進センター(ASTREC、https://astrec.nict.go.jp/)副研究開発推進センター長。また、2016年から同機構フェロー。2018年から一般社団法人アジア太平洋機械翻訳協会(https://aamt.info/)会長を兼務。一貫して機械翻訳の研究に従事。音声翻訳アプリVoiceTra(https://voicetra.nict.go.jp/)と翻訳サイトTexTra(https://mt-auto-minhon-mlt.ucri.jgn-x.jp/)を公開し、多数の企業に技術移転。2025年に向けて音声翻訳の国プロ(https://www.soumu.go.jp/menu_news/s-news/01tsushin03_02000298.html)を推進中。また、2017年から総務省と連携し自動翻訳の高精度化のための「翻訳バンク」(https://h-bank.nict.go.jp/)を運営。

企業がデータを提供することで得られる経済的価値

自動翻訳システムの性能向上のためには、翻訳データの質と量の確保が必要だ。翻訳データは、企業やさまざまな組織から提供されたデータを活用しているという。どのような仕組みでデータを収集しているのだろうか。

翻訳バンクとは?

翻訳バンクをすすめるNICTは、高精度な自動翻訳システムを日本中に広げることをミッションとし、長年自動翻訳の研究を続けてきた。

スマホ用の多言語音声翻訳アプリ「VoiceTra(ボイストラ)」、Web翻訳サービス「みんなの自動翻訳@TexTra®(テキストラ)」を提供している。これら自動翻訳サービスの高精度化に必要なデータを集積するために、2017年9月に総務省とNICTで立ち上げたのが「翻訳バンク」である。

「競争」ではなく「協調」 翻訳精度を上げるためのデータ収集方法

「翻訳バンク」は、中央官庁、地方自治体、企業、各種団体など日本の多くの組織からデータを集め、自動翻訳の高精度化に活用している。特徴的なのは、「競争」ではなく、「協調」をベースとした取り組みであると隅田氏は言う。

「翻訳精度を上げるためにはデータ量が肝要です。世界中のデータを『翻訳バンク』という1つの公的機関に集約することで、1つの翻訳会社や民間団体ではできないほどの精度を実現することができます」(隅田氏)

企業間の利害関係や競争意識が起こりにくい公的機関だからこそ、大量のデータを収集しやすくなる。これは、「競争」をベースとするGAFAなどの動きとは一線を画すものだ。

ただ、企業が手間と時間をかけて集めたデータを、無料で「寄付」してもらうためには、相応の“メリット”が求められることもある。データ提供のメリットとして、隅田氏は「業界や会社に特化した高精度翻訳が行えるようになること」を挙げる。

企業がデータを提供する2つのメリット

企業がデータを提供することには2つのメリットがある。そのメリットにより、企業は自社の経済活動に専念できるようになる。

・1)文書作成の効率化

製薬会社の文書作成効率化の事例がある。翻訳バンクは100万文を越える対訳データを提供され、高精度な自動翻訳システムを開発した。製薬会社はそのシステムを活用することで、治験実施計画書の作成期間を4週間から2週間に削減したという。

データ提供によって、業界の専門用語を高精度に翻訳できるようになる。高精度化のプロセスは「適応」と呼ばれる。例えば「Study」という言葉には「研究」「学問」「書斎」「習作」といったさまざまな意味が含まれるが、製薬分野では「治験」という意味で使われることが多い。

過去の製薬会社の対訳データをAIに学習させることで、「Study」の多くが「治験」であることを認識し、適切に自動翻訳できるようになる。これが「分野適応」と言われるプロセスだ。さらに、個別の会社ごとに合わせていく「個社適応」も翻訳バンクでは可能である。

・2)翻訳コストの削減

高精度の自動翻訳によってさまざまな業務が効率化されれば、その分の人件費等のコストを削減できるだけでなく、開発や製品を市場に出すまでのスピードも上がる。翻訳バンクへのデータ提供が企業の経済活動に大きなインパクトを与えることは容易に想像がつくだろう。

このようなメリットから、データを提供する企業は日に日に増えているという。隅田氏は「日本は横並び志向が強いので、同業界の大企業がデータを提供しているとなれば比較的社内を説得しやすくなるのではないか」と考え、企業事例の発信を通して、さらなるデータ受領を推進しようとしている。

提供データ量に応じたライセンス料の引き下げも

製薬業界をはじめ、自動車業界や金融業界などの伝統産業でも翻訳バンクへのデータ提供と自動翻訳システムの活用が進む。先進的な取り組みの多いIT業界での広がりは、言うまでもない。

例えば、IT業界ではオープンソースソフトウェアの翻訳に役立てている。翻訳バンクは、Linuxを含むオープンソースソフトウェアを推進するLinux Foundation Japanに「みんなの自動翻訳@TexTra®(テキストラ)」の技術を提供している。

最新のオープンソースコードをいち早く高精度に翻訳することで、プログラムの理解や利用可否の意思決定などを早めることができる。スピード感がビジネスの発展を左右するIT業界では即時性と高精度性が特に重要だ。

企業がデータを提供するプロセス 3つの方法

では、実際に企業がデータを提供するためには、どのようなプロセスを踏めば良いのだろうか。企業による翻訳バンクへのデータ提供方法は3つある。

1つ目は、「みんなの自動翻訳@TexTra®」のWebサイトから、Excel形式で用意した対訳データをアップロードする。最もシンプルで簡単な方法だ。

2つ目は、翻訳データ提供の覚書を締結して提供する方法だ。会社としてデータを提供する上で、文書を残したい場合にはこの方法をおすすめする。

3つ目は、自動翻訳技術のライセンス契約を行い、提供したデータ量に応じてライセンス料が引き下げられる仕組みの活用である。これは、「企業がコストをかけてつくったデータに新たな価値が生まれる」と捉えることもできるだろう。

機密文書の収集が課題。だが、実現した際のインパクトは大きい

活用する企業も増え、着実にデータが集まりつつある翻訳バンクだが、データが不足している分野もある。現在の課題や今後の展望について紹介する。

課題は契約書に関する分野

翻訳バンクのデータ収集において、今後期待される分野は「契約書」だ。

「契約書は機密文書ですから、本質的にデータ提供しにくい。日本企業の契約書は比較的薄いのですが、欧米企業の契約書は基本的にかなり分厚い。それを原文で読むのはかなり大変なので日本語に翻訳したいのですが、翻訳会社に依頼すると時間もコストもかかってしまいます。この分野で高精度な自動翻訳システムができれば、時間もお金も節約できるはずです」(隅田氏)

データ量が少ないと精度が上がらないことは自明であり、契約書のデータ収集は現状の課題の1つとなっている。

日本文化を世界中に発信する

隅田氏は、翻訳バンクの今後の展望を「文化」と「海外」という2つの方向で示した。

「今後は、日本文化を海外に紹介する、あるいは海外文化を日本に紹介する中で、どうしても言葉の壁を克服する必要があるでしょう」(隅田氏)。

2021年11月に設立された「日越茶道・文化交流協会」は、翻訳バンクの自動翻訳システムを活用している。会長の茶道裏千家15代家元・千玄室氏は、以前から海外に茶道文化を伝える活動をしていて、多言語の通訳の必要性が高いと考えており、国産の自動翻訳技術を使う取り組みを開始したという。

データ収集の仕組みを海外へ

もう1つの「海外」の方向性は、翻訳バンクの「データ収集の仕組み」を海外に展開しようとするものだ。「協調」の思想を海外に浸透させようとしているのだ。まずは近隣のASEANやインドへの展開を考えているという。

NICTでは2022年3月11日15:00 - 17:00に「第5回自動翻訳シンポジウム」を実施する(参加費無料)。また、隅田氏が会長を務める「アジア太平洋機械翻訳協会」では2021年12月8日、9日に創立30周年記念イベントと年次大会が行われた。同協会は年次大会で最新の機械翻訳に関する情報を発信し続ける予定だという。貴重な機会となるだろう。

翻訳データの蓄積が加速 グローバルで自由な交流の実現を目指す

現在、記事内で紹介した製薬会社やIT業界だけでなくさまざまな業界、業種で翻訳バンクの活用が進んでいる。まだまだ課題があるものの、翻訳データは着実に蓄積されてきており、このまま自動翻訳技術の研究開発や社会実装が進めば、各企業の国際競争力の向上に貢献できるだけでなく、日本の文化を世界に発信することも容易になるだろう。さらなる翻訳精度の向上に期待したい。

無料会員登録はこちら