Ticket #10259

半角空白をはさむ未知語の出現に対する処理
Open Date: 2007-04-07 17:57 Last Update: 2007-07-03 16:01

Reporter:
Owner:
Type:
Status:
Closed
Component:
(None)
MileStone:
(None)
Priority:
1 - Lowest
Severity:
5 - Medium
Resolution:
Fixed
File:
None

Details

半角空白をはさんで2つの未知語があると、ChaSen が返っ
てこなくなるよう
です。以下の入力で再現できます。

------------------------------------------------------
----------------
ヰ ヱ
------------------------------------------------------
----------------

unidic でも ipadic でも確認しました。

なお、unidic には半角文字を登録していないため、

------------------------------------------------------
----------------
Developmental Psychology
------------------------------------------------------
----------------

のような入力でも同様の現象が生じます。この入力に対す
る ipadic の動作も
謎で、

------------------------------------------------------
----------------
D ディー D 記号-アルファベット
e イー e 記号-アルファベット
v ブイ v 記号-アルファベット
e イー e 記号-アルファベット
l エル l 記号-アルファベット
o オー o 記号-アルファベット
p ピー p 記号-アルファベット
m エム m 記号-アルファベット
e イー e 記号-アルファベット
n エヌ n 記号-アルファベット
t ティー t 記号-アルファベット
a エイ a 記号-アルファベット
l エル l 記号-アルファベット
Psychology 未知語
EOS
------------------------------------------------------
----------------

のように、前半部分だけアルファベット連続に解析されま
す。

Ticket History (3/5 Histories)

2007-07-03 14:42 Updated by: masayu-a
Comment
Logged In: YES
user_id=13000

以前小木曽さんから報告があった「半角空白をはさんで2つの未
知語があると
ChaSen が返ってこなくなる」という問題ですが、tokenizer.c の
バグのようで
す。添付のパッチで直ります。

すみませんが、修正後の Windows のバイナリをどこかに置いても
らえますか。


千葉大学文学
部 行動科学科


伝 康晴




diff -rc chasen-2.4.0/lib/tokenizer.c chasen-
2.4.0a/lib/tokenizer.c
*** chasen-2.4.0/lib/tokenizer.c Mon Mar 26 01:45:12
2007
--- chasen-2.4.0a/lib/tokenizer.c Wed Jun 27 12:18:55
2007
***************
*** 156,161 ****
--- 156,162 ----
if (is_anno2(anno, str, cursor))
break;
}
+ type[0] = cursor; /* 2007/06/26 YD */
return cursor;
}

***************
*** 164,169 ****
--- 165,171 ----
cursor += tok->mblen(str + cursor, len -
cursor)) {
if (anno_no != NULL &&
is_anno(tok, str + cursor, len - cursor) >=
0) {
+ type[head] = cursor - head; /* 2007/06/26 YD
*/
return cursor;
} else {
state = tok->get_char_type(tok, str + cursor,
len - cursor);
2007-07-03 14:57 Updated by: masayu-a
  • Resolution Update from None to Accepted
2007-07-03 14:59 Updated by: masayu-a
  • Resolution Update from Accepted to Fixed
2007-07-03 16:01 Updated by: masayu-a
  • Priority Update from 5 - Medium to 5 - Medium
  • Status Update from Open to Open
2007-07-03 16:01 Updated by: masayu-a
  • Ticket Close date is changed to 2007-07-03 16:01
  • Priority Update from 5 - Medium to 1 - Lowest
  • Status Update from Open to Closed

Attachment File List

No attachments

Edit

You are not logged in. I you are not logged in, your comment will be treated as an anonymous post. » Login