ChaKi.NET (3.16 Revision 653) | 2021-01-23 23:11 |
ChaMame (1.0.4) | 2020-01-14 17:04 |
Patch Files (TextFormatter for ChaKi.NET (2010/11/20)) | 2010-11-21 23:23 |
その他 (CaboCha-0.66/UniDic用モデルファイル) | 2013-02-18 17:00 |
旧版[ChaKi Legacy] (2.1.0 Build 202) | 2008-11-16 23:47 |
全自動インポート機能および詳細インポート機能(ChaSen・MeCab・Cabochaファイルのインポート)いずれにおいても、Input Formatとして主に日本語を対象とするMecab/Cabocha諸形式に加えて、主に英語を対象とする CoNLL(Conference on Computational Natural Language Learning) 形式も選ぶことができます。
CoNLL形式は下記の場所で利用可能です。
CoNLL形式の要点は以下の通りです。("The CoNLL 2007 Shared Task on Dependency Parsing", J. Nivre, et.al., Proc. CoNLL Shared Task Session of EMNLP-CoNLL 2007, pp. 915–932)
ChaKiにおいては、"FEATS"フィールドを下記の目的で使用しています。元ファイルのこれらの指定は、インポート時に適切に処理されます。
複合語IOB2属性の品詞対応表
ハイフンの後続文字列 | 複合語にアサインされる品詞 |
RB | RB-RB |
IN | P-IN |
DT | DT-DT |
JJ | JJ-JJ |
NN | NN-NN |
PP | PP-PP |
PRP | PR-PRP |
PRP-S | PR-PRP |
PRN | PR-PRP |
UH | UH-UH |
CoNLLにおいて"ID"と"HEAD"で記述される構文構造は、インポート処理内で、1トークンがChaKiの1文節(Bunsetsu Segment)として扱われ(つまり、1単語1文節)、そのIDの文節からHEAD IDの文節への係り受け(Link)が作成されます。 HEAD=0の文節は、文末ダミー文節への係りを持つことになります。 "DEPREL"フィールドは、そのフィールド値と同じ名称を持つLinkタグになります。
下記に、ChaKiの想定しているCoNLL入力サンプルを示します。
1 Workers _ NN NNS SP 2 nsubj _ _ 2 described _ VB VBD SP 0 root _ _ 3 `` _ QUOTE `` _ 4 punct _ _ 4 clouds _ NN NNS SP 2 dobj _ _ 5 of _ P IN SP 4 prep _ _ 6 blue _ JJ JJ SP 7 amod _ _ 7 dust _ NN NN _ 5 pobj _ _ 8 '' _ QUOTE '' SP 4 punct _ _ 9 that _ DT WDT SP 10 nsubj _ _ 10 hung _ VB VBD SP 4 rcmod _ _ 11 over _ P IN SP 10 prep _ _ 12 parts _ NN NNS SP 11 pobj _ _ 13 of _ P IN SP 12 prep _ _ 14 the _ DT DT SP 15 det _ _ 15 factory _ NN NN _ 13 pobj _ _ 16 , _ PUNC , SP 10 punct _ _ 17 even _ RB RB B-IN|SP 21 advmod _ _ 18 though _ SC IN I-IN|SP 21 mark _ _ 19 exhaust _ NN NN SP 20 nn _ _ 20 fans _ NN NNS SP 21 nsubj _ _ 21 ventilated _ VB VBD SP 10 advcl _ _ 22 the _ DT DT SP 23 det _ _ 23 area _ NN NN _ 21 dobj _ _ 24 . _ PUNC . _ 2 punct _ _
これをインポートした結果(係り受け図)を下記に示します。IOB2タグにより、"even though"が1単語としてインポートされています。