[fess-user 757] Re: CommandExtractorとxdco2txtの連携について

Back to archive index

Shinsuke Sugaya shins****@yahoo*****
2013年 7月 13日 (土) 08:25:06 JST


菅谷です。

Fessに含まれるS2Robotのバージョンは
より高いものに差し替えるのは動くと思いますが
低いものに下げると動かないと思います。
また、0.5.1に入れてある修正はそれ以上の
バージョンには含まれているので、S2Robotの
バージョンを下げる必要はないと思います。

設定で気になるところは
       <property name="command">"cmd /c xdoc2txt -i $INPUT_FILE >
$OUTPUT_FILE"</property>
のコマンド内の>が&gt;のような気もします。
あとは、ログをDEBUGで出力してみて確認など
するしかないかと思います。

よろしくお願いいたします。

shinsuke

2013年7月12日 23:47 monolith モノリス <monyo****@hotma*****>:
> お世話になっております。やまです。
>
> お忙しいところ、ご回答ありがとうございます。
> 教えていただいた箇所よりダウンロードし、
> 0.5.7のjarを以下3つと差し換えました。
>
> s2-robot-0.5.1.jar
> s2-robot-db-0.5.1.jar
> s2-robot-db-h2-0.5.1.jar
>
> しかし、クロール時にインデックスが作成されず、
> fess.outに以下エラーが出力されました。(文字化けは無視してください)
>
> Processed: C:/fess/fess-server/webapps/fess/WEB-INF/db/robot.h2.db
> Exception in thread "Robot-20130712223500-1" org.seasar.framework.beans.PropertyNotFoundRuntimeException: [ESSR0065]?N???X(jp.sf.fess.robot.FessS2RobotThread)??v???p?e?B(noWaitOnFolder)?????????????
>         at org.seasar.framework.beans.impl.BeanDescImpl.getPropertyDesc(BeanDescImpl.java:137)
>         at org.seasar.framework.container.assembler.AccessTypePropertyDef.bind(AccessTypePropertyDef.java:48)
>         at org.seasar.framework.container.assembler.AccessTypePropertyDef.bind(AccessTypePropertyDef.java:41)
>         at org.seasar.framework.container.assembler.AutoPropertyAssembler.assemble(AutoPropertyAssembler.java:56)
>         at org.seasar.framework.container.deployer.PrototypeComponentDeployer.deploy(PrototypeComponentDeployer.java:43)
>         at org.seasar.framework.container.impl.ComponentDefImpl.getComponent(ComponentDefImpl.java:111)
>         at org.seasar.framework.container.impl.S2ContainerImpl.getComponent(S2ContainerImpl.java:129)
>         at org.seasar.robot.S2Robot.run(S2Robot.java:209)
>         at java.lang.Thread.run(Thread.java:722)
> WARN: The method class org.apache.commons.logging.impl.SLF4JLogFactory#release() was invoked.
> WARN: Please see http://www.slf4j.org/codes.html#release for an explanation.
>
>
> s2robot 0.5.1にはnoWaitOnFolderのプロパティが無くDIできないと考え、
> s2robot_db.diconの
>         <component name="robotThread" class="jp.sf.fess.robot.FessS2RobotThread" instance="prototype" >
>                 <property name="noWaitOnFolder">true</property>
>         </component>
> を削除すると以下ログが出力されました。
>
> Processed: C:/fess/fess-server/webapps/fess/WEB-INF/db/robot.h2.db
> Exception in thread "Robot-20130712224331-1" org.seasar.framework.container.ComponentNotFoundRuntimeException: [ESSR0046]?R???|?[?l???g(robotThread)?????????????
>         at org.seasar.framework.container.impl.S2ContainerBehavior$DefaultProvider.acquireFromGetComponentDef(S2ContainerBehavior.java:165)
>         at org.seasar.framework.container.impl.S2ContainerBehavior$DefaultProvider.acquireFromGetComponent(S2ContainerBehavior.java:158)
>         at org.seasar.framework.container.impl.S2ContainerBehavior.acquireFromGetComponent(S2ContainerBehavior.java:62)
>         at org.seasar.framework.container.impl.S2ContainerImpl.getComponent(S2ContainerImpl.java:124)
>         at org.seasar.robot.S2Robot.run(S2Robot.java:209)
>         at java.lang.Thread.run(Thread.java:722)
> WARN: The method class org.apache.commons.logging.impl.SLF4JLogFactory#release() was invoked.
> WARN: Please see http://www.slf4j.org/codes.html#release for an explanation.
>
> 今度はrobotThreadを削除したことにより、robotThreadが見つからないエラーとなってしまいました。
>
> fess 8.1.0ではs2robot 0.5.1を動作させるために、有効な設定などありますでしょうか?
> またs2robot 0.5.1が動作する(しそうな)fessのバージョンなどありましたら
> 教えていただけないでしょうか。
>
> お忙しいところ申し訳ありませんが宜しくお願い致します。
>
> 以上
>
>
>
> 2013/07/12 21:43、"Shinsuke Sugaya" <shins****@yahoo*****> のメッセージ:
>
> 菅谷です。
>
> SNAPSHOTバージョンのjarファイルは長期的に
> 管理していませんので
> http://maven.seasar.org/maven2/org/seasar/robot/s2-robot/0.5.1/
> を利用していただければ良いかと思います。
> よろしくお願いいたします。
>
> shinsuke
>
>
> 2013年7月8日 12:15 monolith モノリス <monyo****@hotma*****>:
>> お世話になっております。やまです。
>>
>> S2RobotのCommandExtractorからxdoc2txtをコマンドライン実行し、
>> テキスト抽出を検討しております。
>> (xdoc2txtがi filterを使用することで、xlsx形式の
>>  テキストボックス内文字列抽出が行えるためです。)
>>
>> 下記トピックのとおり、s2robot_extractor.diconの設定を行ったのですが、
>> インデックスにはテキストボックス内文字列は出力されておらず検索できませんでした。
>> (セル内の文字列はインデックス化されおり、TikaExtractorで抽出された模様)
>>
>> [fess-user 452] Re: CommandExtractor 仕様について提案
>> http://sourceforge.jp/projects/fess/lists/archive/user/2011-March/000451.html
>>
>> トピックにあるCommandExtractorの一時ファイルで拡張子付与(.txt)に対応した
>> S2Robot「s2-robot-0.5.1-20110330.192026-5.jar」は現在存在しないリンクとなっており、
>> 入手できませんでした。
>>
>> 以下サイトに該当のjarは見つかりませんでした。
>> http://maven.seasar.org/maven2-snapshot/org/seasar/robot/s2-robot/0.5.1-SNAPSHOT/
>>
>>
>> 「s2-robot-0.5.1-20110330.192026-5.jar」の入手方法 or 提供頂く事は可能でしょうか?
>> また、その他必要な設定ありましたら教えて頂きたいです。
>> 宜しくお願い致します。
>>
>>
>> ■s2robot_extractor.diconの設定内容
>> <?xml version="1.0" encoding="UTF-8"?>
>> <!DOCTYPE components PUBLIC "-//SEASAR//DTD S2Container 2.4//EN"
>>       "http://www.seasar.org/dtd/components24.dtd">
>> <components>
>>   <component name="tikaExtractor" class="org.seasar.robot.extractor.impl.TikaExtractor"/>
>>
>>   <component name="officeCmdExtractor" class="org.seasar.robot.extractor.impl.CommandExtractor">
>>       <property name="command">"cmd /c xdoc2txt -i $INPUT_FILE > $OUTPUT_FILE"</property>
>>       <property name="outputEncoding">"UTF-8"</property>
>>       <property name="outputExtension">".txt"</property>
>>   </component>
>>   <component name="extractorFactory" class="org.seasar.robot.extractor.ExtractorFactory">
>>       <initMethod name="addExtractor">
>>           <arg>{
>> "application/vnd.openxmlformats-officedocument.presentationml.presentation",
>> "application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",
>> "application/vnd.ms-excel.sheet.macroenabled.12",
>> "application/vnd.openxmlformats-officedocument.wordprocessingml.document"
>> }</arg>
>>           <arg>officeCmdExtractor</arg>
>>       </initMethod>
>>   </component>
>> </components>
>>
>> _______________________________________________
>> Fess-user mailing list
>> Fess-****@lists*****
>> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user




Fess-user メーリングリストの案内
Back to archive index