Question

开展一个小爱好项目，抓一些网页，主要是用户发布的博客和新闻网站。

我们有一个小脚本，只需要一个URL列表并抓取所有内容的页面，基本上是使用Apache HTTP组件的hello world版本......

无论如何，我们想对这些页面上显示的文本进行一些分析。但是，任何URL都可以以任何格式出现，我们需要一些合理可靠的方法来识别网页上的主要内容（这里有一些错误，没关系）。

是否有人知道Java中的任何开源框架或小脚本可用于识别网页中的主要文本内容？

有一些方法可以想到，只需查找具有最明显文本的最大DOM元素，或者比较用于描述某些文本（即元数据）与实际文本数据的字符数。我希望有人可能已经发布了一些用Java做的事情，但如果没有，因为我将要做到这一点的麻烦，是否有需要这样的实用程序？

干杯！

Answer 1

我认为boilerpipe对您有用。看看这里：http://code.google.com/p/boilerpipe/

以下是教程： http://code.google.com/p/boilerpipe/wiki/QuickStart

对我来说似乎很简单：

URL url = new URL("http://www.example.com/some-location/index.html");   
// NOTE: Use ArticleExtractor unless DefaultExtractor gives better results for you           
String text = ArticleExtractor.INSTANCE.getText(url);

Web爬网 - 使用Java识别网页上的主要内容

1 个答案: