应用错误收集

apache Nutch中是否有任何插件可以在原始内容中索引webHtml和pdfs

时间：2018-04-23 07:31:03

标签： java solr hbase nutch

apache Nutch中是否有任何插件可以使用原始内容索引webHtml和pdfs。这样格式化不会丢失。我们还可以使用nutch来抓取html文件中的内部pdf链接吗？

2 个答案:

答案 0 :(得分：0)

对于PDF，没有任何开箱即用的功能。 Nutch使用Tika并尝试提取纯文本。您可以编写自己的插件（例如使用PDFBox）并尝试提取有关文档的格式信息。

请记住，PDF文件的原始内容不会有多大意义。可能您可以尝试将PDF转换为HTML / XML，然后尝试理解结构。也许像http://pdfx.cs.man.ac.uk/example这样的图书馆对你来说很有意义。没有做一些实验就知道这是不可能的。

关于＆＃34;内部链接＆＃34;您是指同一文档中的链接或链接到内容PDF中的其他文档/网页？如果您的意思是PDF中的内部链接，您可以根据库进行操作。

请记住，PDF不是一种易于处理的格式。 Tika / PDFBox项目在缓解这项任务方面做了出色的工作，即使花费了所有时间/精力，也有一些边缘文件存在问题＆＃34;。只是一个小小的警告。

答案 1 :(得分：0)

确保包含在名为plugin.includes的nutch_site.xml属性中 | parse-（文本| HTML |的 PDF ）|

相关问题

Apache Nutch只索引部分页面内容

如何阅读Nutch索引的内容？

有没有理由同时拥有淘汰映射插件和微风？

如何使用nutch插件解析位于特定HTML标记中的内容？

使用Solr和Tika索引PDF的内容

如何使用solr索引nutch中的插件字段？

有什么方法可以消毒＆＃34;消毒＆＃34; C＃中的PDF文件？

有没有办法在Apache solr中索引kafka输出？

apache Nutch中是否有任何插件可以在原始内容中索引webHtml和pdfs

关于在部署模式下运行Nutch 2.0的信息吗？

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？