RSS阅读器然后抓取页面内容

时间:2011-02-19 02:25:31

标签: java rss nlp web-crawler

我已将RSS阅读器集成到我的应用程序中。 如何使用RSS Feed URL获取网页? 是否有任何免费的api使用URL直接在Java中执行此操作?

我必须处理网页的内容(准确地说是新闻文章)并用它来做一些算法。

现在的问题是做一小部分Crawler。有没有免费的轻量级api?

1 个答案:

答案 0 :(得分:1)

要获取任何网址的“内容”,请查看java.net.URL课程。它有一些有用的方法来获取内容,例如openConnection()openStream()来获取内容。