顔文字をMeCabで形態素解析する

顔文字を形態素解析

テキストコミュニケーションにおける「身振り手振り言語」とも言われる顔文字は、目・鼻・口などの顔のパーツから構成されています。ところで顔文字をパーツごとに分割し、パーツの種類(品詞)を推定するというタスクは、形態素解析と同じ問題に帰着します。そこで今回私は、形態素解析器として使われているMeCabを用いて、顔文字を形態素解析してみました。

デモ

まずはデモを試してみてください。
http://www.haroperi.info/cgi-bin/emoticon.cgi

実行結果

未知語処理が苦手なようで、なかなか正確な形態素解析は行えませんが、教師データを解析してみると、以下のように綺麗に分割・品詞付与されます。

詳細

詳細はhttp://www.haroperi.info/emoticon/mecab.htmlに書きました。これ以上はどこにも書いていません。
今後、MeCabの未知語処理の機能などを色々試してみて、得られた知見を公開できたらと思います。