研究紹介

主な研究内容とその成果をまとめます。

自然言語処理技術を幅広い言語で適用するための研究

自然言語処理分野では、深層学習等の莫大な学習データを用いた機械学習に基づく手法が高精度を発揮しています。 しかし、これらの技術を世界中に数千以上存在する言語で適用するためには、莫大な学習データをそれぞれの言語に対して個別に収集する必要があり、現実的ではありません。 実際、言語データを数多く収集可能な言語とそうでない言語の間でモデルの性能に大きな隔たりが見られ、自然言語処理技術の適用範囲は数少ない言語に限られています。

そこで、資源の豊富な言語の学習データで学習したモデルを資源の少ない言語で適用することで、言語をまたいで学習データを活用する手法が検討されてきました。 しかし、言語が違えば出現する単語が異なることから(「犬」は日本語でのみ、「dog」は英語でのみ出現する)、モデルをそのまま言語をまたいで適用することはできません。 既存手法の多くは、多言語単語分散表現と呼ばれる複数の言語の単語を同じ意味空間で表現した単語埋め込みを活用することで、この問題を解決しています。

そのため、より高精度な多言語単語分散表現を獲得する研究と、具体的にモデルを言語をまたいで適用する手法についての研究を行ってきました。

多言語単語分散表現に関する研究

多言語単語分散表現の最も一般的な学習手法は、まず各言語において単語分散表現を学習し、対訳辞書を用いて同義とされている語が近くなるような線形写像を学習するものですMikolov+ 2013; Xing+ 2015。 しかし、多くの言語対においては対訳辞書を獲得することが困難であることも多く、また、言語間の距離が遠い場合は事前に学習した単語分散表現の性質の違いから高精度が発揮されない問題があります。

この問題を解決するために、まず対訳辞書に依存せずに多言語単語分散表現を獲得する手法を構築しました。 言語学的に近い言語間や文化的な交流の多い言語間では、語源を同じくする語や借用語など、表層の似ている単語が多く見られます。 この手がかりを用いて、表層が似ている単語のベクトル表現を近くするように学習することで、対訳辞書に依存せずに多言語単語分散表現を獲得する手法を構築しました。

しかし、この手法では文字体系の大きく異る言語対(英語と日本語など)においては効果を発揮しません。 文字体系の異なる言語対では、単語の借用時にはその音から借用先の言語での表層を決定することが多く見られます(communication→コミュニケーションなど)。 そこで、この借用のプロセスを文字列のアライメントとして捉えることで、様々な言語間で適用可能な手法を構築しました。

これを最新の手法Artetxe+ 2018と組み合わせることで、特に距離の遠い言語対において精度向上が見られることを確認しました。

関連論文

  1. 表層類似性を用いた多言語単語分散表現の教師なし学習手法佐久間仁,吉永直樹.第233回 NL研(2017)
  2. Unsupervised Cross-lingual Word Embeddings Based on Subword Alignment. Jin Sakuma, Naoki Yoshinaga, CICLing 2019

モデルの言語間転用に関する研究

深層学習を用いた教師なし多言語モデル(目的言語での学習データや対訳資源を仮定しない)ではモデルの埋込層を多言語単語分散表現に固定して学習することで、モデルの言語間転用を可能としていますDuong+ 2017。 しかし、単語表現が学習データに対して最適化されておらず高精度を達成することが困難でした。

そこで、この研究では目的言語での学習データや対訳資源に依存せず、目的言語のタスクに最適化された単語表現を持つような多言語モデルを獲得しその精度向上を図りました。 具体的には、事前に原言語において学習したニューラルネットモデルの埋込層の意味空間に、多言語単語分散表現の目的言語の単語を写像することで、タスクに最適化された単語表現を獲得しました。

関連論文

  1. タスクに特化した多言語単語分散表現を用いた多言語モデル佐久間 仁,吉永 直樹.YANS 2018
  2. 単語分散表現のタスク横断写像に基づく高精度多言語モデル佐久間 仁,吉永 直樹.NLP 2019
  3. Multilingual model using cross-task embedding projection. Jin Sakuna, Naoki Yoshinaga, CoNLL 2019