limol****@nifty*****
limol****@nifty*****
2011年 3月 30日 (水) 22:30:53 JST
クニカタです。お世話になっております。 http://s2robot.sandbox.seasar.org/ja/extractor-guide.html ↑を参考にして、 CommandExtractorの使用を検討しています。 xdoc2txt.exeを呼び出しで、以下のように設定をしたところ うまくテキスト抽出できませんでした。 <component name="msOfficeCmdExtractor" class="org.seasar.robot.extractor.impl. CommandExtractor"> <property name="command">"cmd /c xdoc2txt -s -r=0 $INPUT_FILE > $OUTPUT_F ILE"</property> <property name="outputEncoding">"Shift_JIS"</property> </component> CommandExtractorの処理で、入力用テンポラリファイルを作成している部分で 拡張子の前に「.」がつかないテンポラリファイルが作成されていることが原因でした 。 xdoc2txt.exeでは拡張子によってファイル種を判別しているため、うまく動きませんで した。 (※pdftotext.exeなどでは問題ないです。) とりあえずクラスファイルをDIする感じでは対応できるのですが、 次バージョンで、なにか対応願えませんでしょうか?