Forums: 公開討議 (Thread #35580)

OED v4のEPWING化について (2014-06-12 16:49 by kunio40 #73416)

大久保様

早速、Lailapsを便利に使わせていただいております。
いつもながら大久保様のプロジェクト開発には感服しております。
次なるプロジェクトとして、OED v4のEPWING化をぜひ取り上げたいただきたくお願い申し上げます。

Reply to #73416×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: OED v4のEPWING化について (2014-06-16 22:36 by ohkubo-k #73483)

ご利用ありがとうございます。

先日、久しぶり(2年ぶり?)にOEDの全文コピペプログラムを動かしてみました。
やはり途中で止まってしまったりして、うまく行きません。
OEDのアプリケーション(oed.exe)自体が異常終了してしまうこともしばしばです。
何万回もコピペを繰り返すのが原因かと、千回コピペするごとに oed.exe を再起動して処理を継続するように修正してみたのですが、やはり不意に異常終了してしまいました。
コピペ処理が速すぎるのかと、いくらかゆっくり自動コピペするようにもしてみましたが、異常終了することがあり、最後まで到達しませんでした。

OEDアプリの実態は Adobe Flash のようですが、何千何万回も検索(とコピペ)を繰り返すとどこかで異常終了してしまうようです。
必ず同じところで異常終了するなら回避の方法も考えられますが、今のところどこかで突然終了してしまうので、効果的な回避策が分かりません(おそらくタイミングの問題だろうと思いますが)。

OED ver 3 のテキスト化スクリプトを見ると、OEDデータの暗号を解読していて、しかも、ver 3, 3.01, 3.1 の3種で解読方法が異なっていて、それぞれに対応しています。
  http://hp.vector.co.jp/authors/VA005784/oed/
わたしにはちょっとそこまでの技術(とやる気)はありません。
何とか全文コピペ方式で対処できないものかと思っていますが、辞書が巨大すぎるためにうまく行かない可能性もあります。
現在の全文自動コピペ方式ですと、一項目ごとにファイルにコピペを繰り返すので、全部をコピペし終わるのに数日(!)かかることになります。それでも一度でちゃんと終われば儲けものだと思うのですが、異常終了が起きてしまうため、いまだ一度も完走できていません。
まだもう少し試行錯誤してみるつもりです。
Reply to #73416

Reply to #73483×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: OED v4のEPWING化について (2014-06-17 11:45 by kunio40 #73486)

[メッセージ #73483 への返信]
御多忙中のところ、早速お取り組みいただき、誠にありがとうございます。
御存じかとは思いますが、今月9日Windows自動化ソフト「UWSC」がバージョンアップして「Ver5.0.1」になっています。
OED V4のコピペは、この新バージョンで行われたのでしょうか。
Reply to #73483

Reply to #73486×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: OED v4のEPWING化について (2014-06-23 21:23 by ohkubo-k #73583)

kunio40さま

> OED V4のコピペは、この新バージョンで行われたのでしょうか。

はい、そうです。
UWSCがやっているのは、コピペ&ファイルに書き出しの繰り返しで、大したことはありません。異常終了するのはOEDのアプリ(oed.exe。より正確にはそれから起動されるflashplayer.binらしい)です。

コピペ処理の個々の手順(Ctrlキーを押す、Aを押す{全文選択}、Cを押す{全文コピー}、Ctrlキーを離す、など)間の待ち時間を10~50msecくらいにすると数千回に一度程度で落ちるようです(数万回でも問題ないこともありますが)。これを100msecくらいにすると30時間くらいかかって10万件程度まで進みました。が、やはり最後まで行きませんでした。全体では30万件くらいのようなので、まあまあ希望が見えてきたところです。

もうアプリが異常終了するのは仕方がないとして、そういう場合、それでもアプリを自動的に再起動して処理を継続するようにするしかないかと思っています。
また、アプリが落ちないように100msecの待ちでコピペを繰り返すと、辞書全体のコピペに丸々3~4日かかります。その間パソコンで何にもできなというのは現実的に問題があるので、途中で止めても、正しく途中から再開できるような改良も必要です。
まだ手はある、と思っていますが、実際うまく動くかどうか、やってみないと分かりません。
何とかなるといいのですが。
Reply to #73486

Reply to #73583×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: OED v4のEPWING化について (2014-06-24 05:27 by kunio40 #73586)

[メッセージ #73583 への返信]
大久保様

> まだ手はある、と思っていますが、実際うまく動くかどうか、やってみないと分かりません。
> 何とかなるといいのですが。

やはりOEDサイドの問題であることがよく理解できました。
並々ならぬご努力に感謝いたしております。
取り急ぎ御礼まで。
Reply to #73583

Reply to #73586×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: OED v4のEPWING化について (2014-07-03 22:46 by ohkubo-k #73711)

全自動コピペスクリプトに、OEDの異常終了後の自動再起動を組み込みました。これは割合簡単でした。

残る大きな問題は、一つ一つコピペしていくのですが、突如(そのタイミング不明)ずっと離れた項目に突然ジャンプしてしまうことがあることです。
ひとまずジャンプしてコピペされなかった部分だけコピペするような作業を手作業で何度か繰り返して、なんとかOED全体のコピペができました。
一度テキストになれば、あとはどうにでも出来ます

http://classicalepwing.sourceforge.jp/etc/oed-bonus.png

とりあえず「やればできる」レベルには達したのですが、一般の方に公開するにはもっと使いやすく、一度でちゃんと処理完了できるような工夫が必要です。
Reply to #73583

Reply to #73711×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: OED v4のEPWING化について (2014-07-04 04:52 by kunio40 #73715)

[メッセージ #73711 への返信]
大久保様

> とりあえず「やればできる」レベルには達したのですが、一般の方に公開するにはもっと使いやすく、一度でちゃんと処理完了できるような工夫が必要です。

大久保様の「あきらめない」姿勢に敬服いたしております。
一般公開の日を楽しみにいたしております。

Reply to #73711

Reply to #73715×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: OED v4のEPWING化について (2014-07-06 15:58 by コブち #73743)

大久保様、kunio40様

横から申し訳ありません
下記のサイトにOedのepwing化に関する
情報があり、ご参考になるかもしれないと思って、失礼ながら書き込みをいたしました。

http://www2.ocn.ne.jp/~yamane/lit/oed-epwing/


一般公開の日を楽しみにしています(^^♪。
Reply to #73715

Reply to #73743×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

Re: OED v4のEPWING化について (2014-07-10 22:35 by ohkubo-k #73807)

コブちさん、情報ありがとうございます。大久保です。

> http://www2.ocn.ne.jp/~yamane/lit/oed-epwing/

最近更新されたようですね。
ここにあるツールは、
 OED テキスト化スクリプト
 http://hp.vector.co.jp/authors/VA005784/oed/index.html
で得られたOEDのテキストデータをEPWINGにするものです。
で、「OED テキスト化スクリプト」自体は残念ながら「Oxford English Dictionary CD-ROM v3.0x および v3.1 の辞書データをテキスト化するRubyスクリプト」であって、最新のv.4.0.0.3 のCDデータには対応していません。
ver 3系と4系では全くファイルが違うので、使いまわすこともできません。

「OED テキスト化スクリプト」は、OEDの暗号化された辞書データを独自に解読してテキストデータを取り出します。このため、取り出し処理自体は数分で済むそうですが、開発には1年ほどかかったそうです。

私は暗号解読作業まで取り組む気力はありませんので、UWSCを使って全自動全項目コピペをすることで全文テキストを取り出す作戦です。これなら暗号解読しなくて済むのですが、いかんせん時間がかかります。ざっと丸4日(100時間くらい)かかります。早く進めすぎるとOEDアプリが頻繁に異常終了するので、あまり早くもできません(落ちても自動再起動するようにはしていますが)。人間は最初にスタートボタンを押すだけなので、直接の手間がかかるというわけではありません。途中で一時停止・再開できるようにも改良中です。

いったんテキストデータが得られれば、それをEBStudio用に変換し、EPWINGに変換するのは数分で済みます。
Reply to #73743

Reply to #73807×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login

公開しました (2015-02-22 17:20 by ohkubo-k #75567)

Reply to #75567×

You can not use Wiki syntax
You are not logged in. To discriminate your posts from the rest, you need to pick a nickname. (The uniqueness of nickname is not reserved. It is possible that someone else could use the exactly same nickname. If you want assurance of your identity, you are recommended to login before posting.) Login