如何从jsee中的rss feed获取新闻全部内容

时间:2014-08-14 08:02:00

标签: eclipse java-ee rss

我正在开发一个应该获取其他网站新闻内容的网站,例如this。但没有重定向到主持人阅读新闻内容。

现在的问题是我不知道完全获取内容的最佳方法是什么。我知道我可以为每个网站使用RSS提要,但它只有每个新闻的简短描述而不是整个故事。我还在SO中阅读了相关问题,如下所示: How to get the full content from the rss feed in javascript How to extract the full content from a partial content rss 但他们都没有解决我的问题。

现在我想问一下,如果有必要直接向他们提供来自不同网站的新闻内容的最佳方式是什么? 对不起,因为英语不好,如果我的问题不够明确,我可以解释得更多 提前谢谢

1 个答案:

答案 0 :(得分:1)

您可以使用像boilerpipe这样的网页抓取库来从新闻网站中提取内容,但可以轻松抓取内容(例如,如果目标网站更改了布局),并且可能需要legal issues从中提取完整内容其他网站并在您的网站上展示。

编辑:我尝试boilerpipe api demo,图书馆似乎非常聪明地从网页中提取文章。