マガジン:トレンド

「日本語の単語をベクトル化する」という試み

カテゴリ:導入事例


Microsoftが開発したOS「Windows」が普及する以前は、コマンドと呼ばれる文字列を入力することによってコンピュータを制御していました。その後、Windowsが普及してアイコンやカーソルを使って視覚的に制御する方法が主流となり、スマホが登場したことで指で操作するようになりました。そして、現在、コンピュータはヒトの話す言葉に反応できるまでに進化しました。こうしたユーザインタフェース進化の背景には、言葉をコンピュータが解釈できるようにする技術の開発が進展したことが指摘できます。そこで本記事では、言葉をコンピュータで処理しやすいようにする試みについて紹介します。

日本語を「単語ベクトル」化する

株式会社ワークスアプリケーションズのAI研究機関であるワークス徳島人工知能NLP研究所(以下、徳島NLP研)は、2018年12月25日、自然言語処理の重要な資源の一つである「単語ベクトル」に関する研究を大学共同利用機関法人である国立国語研究所(以下、国語研)と共同して行うことを発表しました。

同研究では、国語研が保持する100 億語規模の日本語データベースと徳島NLP研が開発した形態素解析器「Sudachi」を用いて、より実用的な「単語ベクトル」を構築します。

単語ベクトルとは、単語の特徴を数値化したものです。この単語ベクトルを用いることでコンピュータは単語の類似性や関連性を捉えることが可能となり、コンピュータによる高精度な検索や翻訳、さらにはテキストマイニングやAIによる自動会話といった分野での大きな進歩が期待できます。

また、Sudachiが実行する形態素解析とは、日本語の文章を品詞に分解して文章の意味を解析する技術です。形態素解析された文章は、名詞や動詞に該当する単語が特定されることによって、意味が解釈されるのです。最近の形態素解析では、単語のあいだのつながりを確率的に分析して意味を解釈する統計的手法が積極的に採用されています。

単語をベクトル化すれば、単語を使った計算が可能に

近年、自然言語における単語のあいだにある関係を分析する方法として、単語をベクトル情報として処理する手法が活発に研究されています。こうした単語をベクトル化する手法で、もっとも有名なのがword2vecです。

word2vecは「単語の意味は、周辺にある単語の関係によって決まる」というアイデアにもとづいています。つまり、単語の意味は周辺にある単語との関係を記述することによって表現できる、というわけです。こうした単語間の関係を記述する方法としてベクトルを採用したのが、word2vecなのです。こうしたword2vecを有名にした話として、この手法を用いれば「王様」-「男性」+「女性」=「女王」という計算ができる、というものがあります。この計算は、王様と男性のあいだにある関係と女性と女王のあいだにあるそれが類似していることをベクトル化したことによって可能になったのです。

word2vecに代表される自然言語を数量的に処理する試みは、自動翻訳や文章入力時の入力候補の予測に応用されています。

以上に解説したSudachiやwrod2vecは、自然言語処理と呼ばれるAIの研究分野における成果を活用したものです。自然言語処理は、画像認識と並んで現在のAI研究の主流となっています。こうした自然言語処理の研究が進めば、有名な「チューリング・テスト」にクリアするAIが本当に誕生するかも知れません。

顧客化を加速させる接客体験を
あなたのWEBサイトへ

お問い合わせ