从没有rss的站点中提取rss

时间:2015-04-02 09:20:40

标签: rss web-crawler

我正在尝试找到一个程序(开源或付费,我希望看看有什么用),这些程序可以从没有RSS的站点生成RSS源。我已经尝试了feeditypage2rss这样的网站,但他们并没有真正发挥作用,最重要的是,他们需要我指定,页面,标题,摘要等才能工作。

我正在寻找可能的东西,例如,生成网站的XML文件,然后在每次调用它时继续触发它(让我们说每20分钟一次)然后给我最新帖子。

我不会因为新闻网站而获胜,但总的来说。

我正在尝试创建一个流,但是没有rss的抓取网站不是一个选项,我正在寻找替代方案。

1 个答案:

答案 0 :(得分:0)

Kimono可能适合您,请在此处查看我的回答:How to Make anypage a RSS feed Free? 它返回JSON,CSV或RSS格式的输出。

此外,如果您能够破解某些Java代码,Boilerpipe非常聪明地从网页中提取文章。甚至有API demo