在pdf中爬行

时间:2010-05-18 07:27:21

标签: pdf ms-word

我正在开发一种工具,用于搜索用户在给定网站上输入的关键字。我的问题是,它只搜索html /网页上的关键字,而不搜索网站上的PDF / MS-Word文件。

有人可以向我推荐一些api /工具或提供可以从给定的在线PDF / MS-Word / Text文件中搜索文本的代码吗?

2 个答案:

答案 0 :(得分:0)

您可以将Antiword用于word文件。

pdftotext可用于pdf文件。

这两个命令都可通过apt获得: sudo apt-get install xpdf-utils antiword

答案 1 :(得分:0)

在JVM上运行的任何东西中进行开发,最好使用POI进行MS Office文档解析,使用PDFBoxJPedalPDF Clown进行解析.pdfs。

对于一般索引编制,您不会错过lucenenutch