Shinsuke Sugaya
shins****@yahoo*****
2010年 11月 4日 (木) 09:04:02 JST
菅谷です。 PDFのパスワードを渡すように S2Robot へ コードは追加しましたが、現状、正式にそれを サポートをしてないので(テストとかしてないため) ドキュメントとかはどこにもないです(すいません)。 試してみる場合は、s2robot_extractor.dicon で tikaExtractor を以下のようにすることを想定して います。 <component name="tikaExtractor" class="org.seasar.robot.extractor.impl.TikaExtractor"> <initMethod name="addPdfPassword"> <arg>"hoge.pdf"</arg> <arg>"password"</arg> </initMethod> </component> 最新の S2Robot 0.5.0-SNAPSHOT からこれが有効ですが、 今のところ、hoge.pdf のようにファイル名指定になって いるので、将来的には URL 指定に変更するかもしれません。 よろしくお願いいたします。 shinsuke 2010年11月3日23:30 Yoshimasa Iwase <iwase****@gmail*****>: > お世話になります、Iwaseです。 > > デフォルトの設定でクロールを行うと、 > パスワード無しのPDFはインデクシングされますが、 > パスワード付きのPDFはインデクシングされません。 > 後者のパス付きPDFを検索対象としたいため、解決法を探しております。 > > S2Robotのdicon記述で対応可能とのことですが、 > どのdiconファイルに、どのように記述をすれば良いか、 > 恐れ入りますが、どなたかご教授願えますでしょうか? > > ※こちらの、最下部にある”pdftotext upw password $INPUT_FILE $OUTPUT_FILE" にあるイメージでしょうか? > http://www.seasar.org/source/browse/sandbox.s2robot/trunk/s2robot/src/site/ja/apt/extractor-guide.apt?view=markup&pathrev=364 > > -- > Yoshimasa IWASE > > _______________________________________________ > Fess-user mailing list > Fess-****@lists***** > http://lists.sourceforge.jp/mailman/listinfo/fess-user >