apache Nutch中是否有任何插件可以在原始内容中索引webHtml和pdfs

时间:2018-04-23 07:31:03

标签: java solr hbase nutch

apache Nutch中是否有任何插件可以使用原始内容索引webHtml和pdfs。这样格式化不会丢失。我们还可以使用nutch来抓取html文件中的内部pdf链接吗?

2 个答案:

答案 0 :(得分:0)

对于PDF,没有任何开箱即用的功能。 Nutch使用Tika并尝试提取纯文本。您可以编写自己的插件(例如使用PDFBox)并尝试提取有关文档的格式信息。

请记住,PDF文件的原始内容不会有多大意义。可能您可以尝试将PDF转换为HTML / XML,然后尝试理解结构。也许像http://pdfx.cs.man.ac.uk/example这样的图书馆对你来说很有意义。没有做一些实验就知道这是不可能的。

关于"内部链接"您是指同一文档中的链接或链接到内容PDF中的其他文档/网页?如果您的意思是PDF中的内部链接,您可以根据库进行操作。

请记住,PDF不是一种易于处理的格式。 Tika / PDFBox项目在缓解这项任务方面做了出色的工作,即使花费了所有时间/精力,也有一些边缘文件存在问题"。只是一个小小的警告。

答案 1 :(得分:0)

确保包含在名为plugin.includes的nutch_site.xml属性中     | parse-(文本| HTML |的 PDF )|