グーグルが大規模な日本語の解析データを公開、「20％ルール」の成果：日経パソコンオンライン

Googleが仕事の２０％を自分の好きな研究に使えるってのでできた、単語のつながりデータが公開されたそうです。

N-gram 言語モデルとは、N-1個の語のつながりから、N個目に来る語を予測する手法。例えば「グーグル」と「で」という2つの語に続く、3語目の言葉を予想するのは、3-gramに相当する。この手法は、ひらがなから正しい漢字を推定するかな漢字変換や、音声データから文字を推定する音声認識などの処理において、有効に活用されている。今回グーグルは、この手法で使われるデータを作成、公開した。

解析データは無料で公開されているそうです。へぇー

どの語とどの語が連続して出現しやすいかは、膨大な量の言語データを解析して導き出すのが一般的。グーグルでは、200億文に上る日本語データを解析したという。含まれている単語は、約2550億個。1〜7gramのデータを公開しており、例えば7-gramのデータは11億種類以上にも上る。
データは、特定非営利活動法人言語資源協会の「言語資源流通サービス」を利用して公開。団体／個人の区別なく利用できるという。