[fess-user 380] Re: パスワード付きPDFのインデクシングについて

Back to archive index

Shinsuke Sugaya shins****@yahoo*****
2010年 11月 4日 (木) 09:04:02 JST


菅谷です。

PDFのパスワードを渡すように S2Robot へ
コードは追加しましたが、現状、正式にそれを
サポートをしてないので(テストとかしてないため)
ドキュメントとかはどこにもないです(すいません)。

試してみる場合は、s2robot_extractor.dicon で
tikaExtractor を以下のようにすることを想定して
います。

<component name="tikaExtractor"
class="org.seasar.robot.extractor.impl.TikaExtractor">
  <initMethod name="addPdfPassword">
    <arg>"hoge.pdf"</arg>
    <arg>"password"</arg>
  </initMethod>
</component>

最新の S2Robot 0.5.0-SNAPSHOT からこれが有効ですが、
今のところ、hoge.pdf のようにファイル名指定になって
いるので、将来的には URL 指定に変更するかもしれません。

よろしくお願いいたします。

shinsuke



2010年11月3日23:30 Yoshimasa Iwase <iwase****@gmail*****>:
> お世話になります、Iwaseです。
>
> デフォルトの設定でクロールを行うと、
> パスワード無しのPDFはインデクシングされますが、
> パスワード付きのPDFはインデクシングされません。
> 後者のパス付きPDFを検索対象としたいため、解決法を探しております。
>
> S2Robotのdicon記述で対応可能とのことですが、
> どのdiconファイルに、どのように記述をすれば良いか、
> 恐れ入りますが、どなたかご教授願えますでしょうか?
>
> ※こちらの、最下部にある”pdftotext upw password $INPUT_FILE $OUTPUT_FILE" にあるイメージでしょうか?
> http://www.seasar.org/source/browse/sandbox.s2robot/trunk/s2robot/src/site/ja/apt/extractor-guide.apt?view=markup&pathrev=364
>
> --
> Yoshimasa IWASE
>
> _______________________________________________
> Fess-user mailing list
> Fess-****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/fess-user
>




Fess-user メーリングリストの案内
Back to archive index