絵文字を「語」として処理する難しさ〜「ビール」と「飲み会」見分ける技術 -INTERNET Watch(情報元のブックマーク数)

絵文字も含めて単語を理解するとか難しいな。

バイドゥのモバイル検索で提供されている、絵文字の意味解析について解説する3回目。前回は隣接する単語によって絵文字の「意味」を抽出する方法を説明した。これとは別に、もう1つ「意味」を抽出する方法がある。それが「分布類似度」を使うものだ。
隣接する単語を抽出する方法は、絵文字の3つの用法(表1)のうち、装飾的用法だけを対象にしたものだった。だから、この方法だけでは絵文字の使われ方全体を分析したことにならない。

絵文字を「語」として処理する難しさ~「ビール」と「飲み会」見分ける技術 - INTERNET Watch Watch

screenshot