java - 从网页中提取文本（例如文章）的最佳方式

从网页中提取文本（例如文章）的最佳方式

时间：2013-12-24 23:25:16

标签： java web diffbot

所以我正在尝试编写一个程序，它可以从不同的文章中收集某些信息并将它们组合起来。我遇到问题的步骤是从网页中提取文章。

我想知道您是否可以提供任何有关从网页中提取文本的java库/方法的建议？

我也发现了这个产品： http://www.diffbot.com/products/automatic/article/ 并且想知道你是否认为这是要走的路？如果是这样，有人可以指向我一个java实现 - 似乎找不到一个虽然显然它存在。

非常感谢

澄清 - 我正在寻找一种算法/库/方法，用于检测html dom树中可能是文章的文本块所在的位置。像Safari的读者功能一样。 ps如果你觉得这样做比python更简单就好了 - 虽然我的程序必须用Java运行，因为它应该最终在服务器上运行（使用java框架）我可以尝试让它使用python脚本 - 尽管会只有当你建议Python是要走的路时才这样做。

3 个答案:

答案 0 :(得分：3)

看看Apache Tika。它旨在与爬虫一起使用，并可以为您提取文本和元数据。您还可以选择各种输出类型。

答案 1 :(得分：3)

我找到了一个评价极高的开源解决方案。 https://code.google.com/p/boilerpipe/

对不同文本提取算法的评论： http://tomazkovacic.com/blog/122/evaluating-text-extraction-algorithms/

似乎diffbot的表现非常好，但不是开源的。因此，在开源方面，锅炉管可能是最佳选择。

答案 2 :(得分：-1)

这不是每个格式错误的HTML的答案，但大部分时间jtidy都能很好地清理HTML并为您提供访问各种DOM节点的界面，并且可以访问该节点内的文本。