从网页中提取文本(例如文章)的最佳方式

时间:2013-12-24 23:25:16

标签: java web diffbot

所以我正在尝试编写一个程序,它可以从不同的文章中收集某些信息并将它们组合起来。我遇到问题的步骤是从网页中提取文章。

我想知道您是否可以提供任何有关从网页中提取文本的java库/方法的建议?

我也发现了这个产品: http://www.diffbot.com/products/automatic/article/ 并且想知道你是否认为这是要走的路?如果是这样,有人可以指向我一个java实现 - 似乎找不到一个虽然显然它存在。

非常感谢

澄清 - 我正在寻找一种算法/库/方法,用于检测html dom树中可能是文章的文本块所在的位置。像Safari的读者功能一样。 ps如果你觉得这样做比python更简单就好了 - 虽然我的程序必须用Java运行,因为它应该最终在服务器上运行(使用java框架)我可以尝试让它使用python脚本 - 尽管会只有当你建议Python是要走的路时才这样做。

3 个答案:

答案 0 :(得分:3)

看看Apache Tika。它旨在与爬虫一起使用,并可以为您提取文本和元数据。您还可以选择各种输出类型。

答案 1 :(得分:3)

我找到了一个评价极高的开源解决方案。 https://code.google.com/p/boilerpipe/

对不同文本提取算法的评论: http://tomazkovacic.com/blog/122/evaluating-text-extraction-algorithms/

似乎diffbot的表现非常好,但不是开源的。因此,在开源方面,锅炉管可能是最佳选择。

答案 2 :(得分:-1)

这不是每个格式错误的HTML的答案,但大部分时间jtidy都能很好地清理HTML并为您提供访问各种DOM节点的界面,并且可以访问该节点内的文本。