Ticket #36402

絵文字の辞書整備

Open Date: 2016-06-19 22:54 Last Update: 2016-08-24 11:09

Reporter:
Owner:
(None)
Type:
Status:
Closed
Component:
(None)
MileStone:
Priority:
5 - Medium
Severity:
5 - Medium
Resolution:
None
File:
None

Details

#30841 サロゲートペア対応で作成した絵文字の辞書を試してみると、 Windows 10 + ATOK 「えもじ」で変換して出てくる文字をあまりカバーできていない。 文字コード 26xx や 27xx あたりに入っている絵文字の定義が抜けていると思われる。

Ticket History (3/4 Histories)

2016-06-19 22:54 Updated by: nishimoto
  • New Ticket "絵文字の辞書整備" created
2016-06-20 17:14 Updated by: nishimoto
2016-06-20 17:44 Updated by: nishimoto
Comment

mecab-ipadic-neologd から Unicode 2xxx の絵文字っぽいものを探すスクリプト:

$ xzcat seed/mecab-user-dict-seed.20160526.csv.xz | tse -F "," -s ".*" "if len(L1) == 1 and 0x2000 <= ord(L1) <= 0x2fff: print(L1 + ',' + repr(L1) + ',' + L11 + ',' + L12)" |uniq > emoji2.txt

https://github.com/nvdajp/nvdajp/issues/7

2016-08-24 11:09 Updated by: nishimoto
  • Status Update from Open to Closed
  • Ticket Close date is changed to 2016-08-24 11:09

Attachment File List

No attachments

Edit

Please login to add comment to this ticket » Login