Forums: 公開討議 (Thread #36701)

gutenwing英語版の全文検索インデックスについて (2015-04-21 11:49 by kunio40 #75973)

大久保様

EBWin v.4.1.3.1により、gutenwing英語版の全文検索インデックス作成を2回試みたところ、いずれも作業進捗度64%でフリーズしてしまいます(2回目はPC再起動後)。
大久保様のPC環境ではいかがでしょうか。
ちなみに、御公開のロワイヤル仏和中辞典増補改訂第2版EPWINGの全文検索インデックスは、問題なく作成されます。

Reply to #75973×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: gutenwing英語版の全文検索インデックスについて (2015-04-21 21:41 by ohkubo-k #75978)

試したところ、私もまったく同じ状況になりました。
タスクマネージャーで見たら、EBWinの仕様メモリ量が1.3GBくらいでした。
メモリが足りないのかと思いましたが、32bit版Windows 7 (4GBメモリ)でも、64bit版Windows 8.1 (8GB)でも同じでした。
巨大すぎてEBWinほうで処理を打ち切っているのかもしれません。

64%で止まるので、収録テキスト量を半分くらいにすれば、全文検索インデックスは出来そうです。

また、そもそもEBStudioでEPWING化する際、処理するHTMLファイルが800MBくらいになるとメモリ不足エラー(?)で処理できません。
英語版の収録テキストは600MB程度あり、仏独伊西と同様に前方一致検索キーを私のプログラムで追加すると、HTMLファイルが2.7GBにもなってしまい、EPWING化できません。
フランス語のテキスト量の 150MB 程度か、多分200MB程度に収録テキスト量を減らせば何とかなると思います。

しかし、半分でも1/3でも、英語版の収録作品の取捨選択がわたしにはできないので(作品の重要度がさっぱり分かりません)、収録作品は削らず、単純な(時間のかかる)全文検索でフレーズを探すようにしました。

http://lailaps.sourceforge.jp/titles-english.html
たしか1500作品くらいあったかと思いますが、なんとか取捨選択する方法はありますでしょうか。

あとは、昨年公開した、英語人気作140作品程度を収めた
https://sourceforge.jp/projects/aozorawing/releases/61500
なら、データサイズか小さいので全文検索インデックスを作れると思います。
ただ検索は一瞬で済みますが、作品数が1/10になってしまいます。
gutenwing-140630.zipは作品テキストをただ収録しただけですが、gutenwing-plus-140630.zipのほうは、2単語ずつ区切って出現箇所をKWIC形式で前方一致検索できるようにしたものです。

EBWinの全文検索インデックス機能は最近追加されたばかりですので、今後いろいろ改良されていくのだろうと思います。
Reply to #75973

Reply to #75978×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: gutenwing英語版の全文検索インデックスについて (2015-04-22 04:32 by kunio40 #75979)

[メッセージ #75978 への返信]
大久保様

御多忙中にもかかわらず、御確認いただき誠にありがとうございます。

> 試したところ、私もまったく同じ状況になりました。
やはりEBWinの仕様でしょうか。

> たしか1500作品くらいあったかと思いますが、なんとか取捨選択する方法はありますでしょうか。
Dumas、Cervantes、Dante、Dostoyevsky、Grimm、Hesseなど英訳テキストを全て削除することが考えられます。

> EBWinの全文検索インデックス機能は最近追加されたばかりですので、今後いろいろ改良されていくのだろうと思います。
当面は、通常の全文検索を行い、今後の全文検索インデックス機能改良に期待しましょう。
Reply to #75978

Reply to #75979×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: gutenwing英語版の全文検索インデックスについて (2015-04-26 07:44 by ohkubo-k #75993)

> > たしか1500作品くらいあったかと思いますが、なんとか取捨選択する方法はありますでしょうか。
> Dumas、Cervantes、Dante、Dostoyevsky、Grimm、Hesseなど英訳テキストを全て削除することが考えられます。

以前にもそのアイデアをうかがったのを忘れていました。
英訳テキストを全部削除して、少しテキストが減ったのですが、全文検索インデックス作成は83%で止まりました。
仕方がないので、残りの作品をランダムに選択するようにしたところ、約2割の作品を減らせばよいことが分かりました。どうも、インデックスファイルの上限が1GBくらいのようです。
いろいろ試して、5作品以上ある作家の作品について、25%ランダムに削除してみました。これで全文検索インデックスを作れました。

https://sourceforge.jp/projects/lailaps/downloads/63171/gutenwing-en-150425.zip/

しかし、それでも全文検索がうまくできませんでした。
ヒット件数が多すぎる場合、逆に時間がかかりすぎるようです(赤丸白×ボタンで検索中断できます)。
また、"i am" ではなくて"iam"で検索するとか、使い方にも工夫がいるようです。
時間はかかりますが、今までの全文検索の方が安定して動作するように思います。


Logophileというもう一つのEPWINGアプリでも、辞書登録の際に全文検索インデックスを作ることで、高速検索できます。
ただこれも、インデックス制作処理で大量のメモリ(数GB)を使い、時間もかかる(青空文庫全体で約1時間)ので、環境によっては完遂できないかもしれません。
上で公開した英語の簡略版のテキストデータは、約300MBで、青空文庫全部と同じくらいです。これなら Logophile で全文検索インデックスを作れそうです。

先日公開したものはその2倍くらいのテキストがあるので、作成できないかもしれません。
Logophileは 32bit アプリなので、4GB以上のメモリは使えないからです。
今試そうとしたら、試用期間(1か月)終了と出て使えませんでした・・・。
Reply to #75979

Reply to #75993×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: gutenwing英語版の全文検索インデックスについて (2015-04-28 05:07 by kunio40 #76004)

[メッセージ #75993 への返信]
大久保様

御多忙中にもかかわらず、全文検索インデックス問題にお取り組みいただき、誠にありがとうございます。

> いろいろ試して、5作品以上ある作家の作品について、25%ランダムに削除してみました。これで全文検索インデックスを作れました。
>
> https://sourceforge.jp/projects/lailaps/downloads/63171/gutenwing-en-150425.zip/
>
> しかし、それでも全文検索がうまくできませんでした。
> ヒット件数が多すぎる場合、逆に時間がかかりすぎるようです(赤丸白×ボタンで検索中断できます)。
> また、"i am" ではなくて"iam"で検索するとか、使い方にも工夫がいるようです。
> 時間はかかりますが、今までの全文検索の方が安定して動作するように思います。

私も前記作品縮小版で「face」の全文検索を試したところ、検索中断ボタンを押さないと検索ボタンがグレー状態のままになってしまいます。
ちなみに、faceは検索中断で6,628件検索されました。

> Logophileというもう一つのEPWINGアプリでも、辞書登録の際に全文検索インデックスを作ることで、高速検索できます。
> ただこれも、インデックス制作処理で大量のメモリ(数GB)を使い、時間もかかる(青空文庫全体で約1時間)ので、環境によっては完遂できないかもしれません。
> 上で公開した英語の簡略版のテキストデータは、約300MBで、青空文庫全部と同じくらいです。これなら Logophile で全文検索インデックスを作れそうです。

幸い、Logophileのライセンス保有者なので、試してみたところ、約1時間で全文検索インデックスは作成できました。
しかし、faceで全文検索(Logphile v. 1.6)を行うと、次のとおり書誌についてのみ検索結果2件が表示され、肝心の本文の検索が行われません。
検索アルゴリズムに問題があるのかもしれません。

Hawthorne, Nathaniel, 1804-1864 : The Great Stone Face, and Other Tales of the White Mountains
London, Jack, 1876-1916 : Lost Face

Reply to #75993

Reply to #76004×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: gutenwing英語版の全文検索インデックスについて (2015-04-29 10:42 by kunio40 #76014)

[メッセージ #75993 への返信]
大久保様

> Logophileというもう一つのEPWINGアプリでも、辞書登録の際に全文検索インデックスを作ることで、高速検索できます。
> ただこれも、インデックス制作処理で大量のメモリ(数GB)を使い、時間もかかる(青空文庫全体で約1時間)ので、環境によっては完遂できないかもしれません。
> 上で公開した英語の簡略版のテキストデータは、約300MBで、青空文庫全部と同じくらいです。これなら Logophile で全文検索インデックスを作れそうです。

青空文庫2015年3月7日更新版について、Logophileで全文検索ファイルを作成して「猫」を全文検索したところ、次のとおりgutenwing同様、書誌での検索しかできません。

『猫の草紙』【ねこのそうし】 著者名: 楠山 正雄
作品テキスト: 18380_12099.html
最終更新日: 2003-08-27
図書カード: No.18380
=== 作品データ ===
分類: NDC K913
文字遣い種別: 新字新仮名
備考:
=== 作家データ ===
<以下略>


Reply to #75993

Reply to #76014×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: gutenwing英語版の全文検索インデックスについて (2015-04-30 23:06 by ohkubo-k #76021)

Logophileでの全文検索についてですが、ひょっとすると単なる前方一致検索にしかなっていないのではないでしょうか。
Lopgophileの使い方は詳しくは存じませんが、いくつかある検索種別のボタンを押すとか、全文の簿案だけを押した状態にするとか、何かあるのではないでしょうか。
さすがに1時間近くかけてインデックスを作り、単なる前方一致検索と同じことしかできない、ということはちょっと無いように思います。
Reply to #76014

Reply to #76021×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: gutenwing英語版の全文検索インデックスについて (2015-05-02 13:51 by kunio40 #76032)

[メッセージ #76021 への返信]
大久保様

> Logophileでの全文検索についてですが、ひょっとすると単なる前方一致検索にしかなっていないのではないでしょうか。
> Lopgophileの使い方は詳しくは存じませんが、いくつかある検索種別のボタンを押すとか、全文の簿案だけを押した状態にするとか、何かあるのではないでしょうか。
> さすがに1時間近くかけてインデックスを作り、単なる前方一致検索と同じことしかできない、ということはちょっと無いように思います。

コメント誠にありがとうございます。
検索語「face」及び「猫」について、全文検索インデックスボタンのみでは検索結果は0となり、前方一致インデックスボタンと全文検索インデックスボタンとの組み合わせでは書誌のみ検索されます(face 2件、猫 18件)。
Logophileライセンスユーザーのどなたかが確認していただいた結果の御投稿をお待ちしております。

Reply to #76021

Reply to #76032×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: gutenwing英語版の全文検索インデックスについて (2015-05-02 19:13 by ohkubo-k #76034)

> 検索語「face」及び「猫」について、全文検索インデックスボタンのみでは検索結果は0となり、前方一致インデックスボタンと全文検索インデックスボタンとの組み合わせでは書誌のみ検索されます(face 2件、猫 18件)。

なななんと・・・。ゼロですか・・・・
全文検索の仕様が、単純に思う内容とは異なるのかもしれませんね。
見つかりすぎる語は、検索出来ないとか・・・?
漢字1文字でなく、複数文字でないとだめとか・・?(この件とは無関係ですが、EBStudioでインデックスを埋め込むとき、何文字以上かを登録するか指定できます。)

全文検索の高速化はEBWinやLogophileの独自改良なので、EPWINGの仕様というより、アプリの仕様が関係しているように思います。
Reply to #76032

Reply to #76034×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: gutenwing英語版の全文検索インデックスについて (2015-05-02 19:13 by ohkubo-k #76035)

> 検索語「face」及び「猫」について、全文検索インデックスボタンのみでは検索結果は0となり、前方一致インデックスボタンと全文検索インデックスボタンとの組み合わせでは書誌のみ検索されます(face 2件、猫 18件)。

なななんと・・・。ゼロですか・・・・
全文検索の仕様が、単純に思う内容とは異なるのかもしれませんね。
見つかりすぎる語は、検索出来ないとか・・・?
漢字1文字でなく、複数文字でないとだめとか・・?(この件とは無関係ですが、EBStudioでインデックスを埋め込むとき、何文字以上かを登録するか指定できます。)

全文検索の高速化はEBWinやLogophileの独自改良なので、EPWINGの仕様というより、アプリの仕様が関係しているように思います。
Reply to #76032

Reply to #76035×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: gutenwing英語版の全文検索インデックスについて (2015-05-03 09:49 by kunio40 #76036)

[メッセージ #76035 への返信]
大久保様

新たなコメント誠にありがとうございます。

> 漢字1文字でなく、複数文字でないとだめとか・・?(この件とは無関係ですが、EBStudioでインデックスを埋め込むとき、何文字以上かを登録するか指定できます。)

検索語を「a beautiful face」、「吾輩は猫である」の複数文字で全文検索を試みましたが、やはり検索結果は0となりました。
ちなみに、EBWinの全文検索では、本文を含めて「a beautiful face」が28件、「吾輩は猫である」が143件の検索結果です。

> 全文検索の高速化はEBWinやLogophileの独自改良なので、EPWINGの仕様というより、アプリの仕様が関係しているように思います。

同感です。
Reply to #76035

Reply to #76036×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: gutenwing英語版の全文検索インデックスについて (2015-06-17 05:09 by kunio40 #76363)

[メッセージ #75993 への返信]
大久保様

gutenwingを活用させていただいております。

> どうも、インデックスファイルの上限が1GBくらいのようです。

御明察のとおり、hishida氏のBlogによると、やはり上限が「1GB以下」の仕様になっています。
詳細は、次のサイトを御覧ください。

http://d.hatena.ne.jp/hishida/20150303/p1


Reply to #75993

Reply to #76363×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: gutenwing英語版の全文検索インデックスについて (2015-07-02 16:07 by kunio40 #76450)

[メッセージ #75978 への返信]

大久保様
いつも御労作を活用させていただいております。

> EBWinの全文検索インデックス機能は最近追加されたばかりですので、今後いろいろ改良されていくのだろうと思います。

7月1日、EBWinの全文インデックス機能(下記URL参照)が強化され、懸案であったgutenwing英語版の全文検索インデックスが作成できました。

http://ebstudio.info/wforum_ebppc/wforum.cgi?no=2341&reno=2339&oya=2337&mode=msgview&page=0

ちなみに、「comfortable」を全文検索すると、6,109件表示されました。
Reply to #75978

Reply to #76450×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: gutenwing英語版の全文検索インデックスについて (2015-07-04 06:35 by ohkubo-k #76463)

> 7月1日、EBWinの全文インデックス機能(下記URL参照)が強化され、懸案であったgutenwing英語版の全文検索インデックスが作成できました。
>
> http://ebstudio.info/wforum_ebppc/wforum.cgi?no=2341&reno=2339&oya=2337&mode=msgview&page=0

お知らせありがとうございます。
stardict対応も含め、いまだにEPWINGソフトの機能強化対応をしてくださっているhishidaさまには、本当に感謝です。
Reply to #76450

Reply to #76463×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login