絵文字の辞書整備
mecab-ipadic-neologd から Unicode 2xxx の絵文字っぽいものを探すスクリプト:
$ xzcat seed/mecab-user-dict-seed.20160526.csv.xz | tse -F "," -s ".*" "if len(L1) == 1 and 0x2000 <= ord(L1) <= 0x2fff: print(L1 + ',' + repr(L1) + ',' + L11 + ',' + L12)" |uniq > emoji2.txt
#30841 サロゲートペア対応で作成した絵文字の辞書を試してみると、 Windows 10 + ATOK 「えもじ」で変換して出てくる文字をあまりカバーできていない。 文字コード 26xx や 27xx あたりに入っている絵文字の定義が抜けていると思われる。