是谷歌新闻html scrappping的例子

时间:2011-04-23 16:42:26

标签: screen-scraping web-scraping

我需要制作类似于Google新闻的网络应用。 我是否需要学习html报废或其他技术

2 个答案:

答案 0 :(得分:1)

最简单的解决方案是获取您尝试从中获取数据的网站的RSS或ATOM Feed。

这些是众所周知的格式,从这样的XML提要中提取信息比从HTML页面获取信息要容易得多:使用RSS / ATOM,您只需解析XML提要,并提取标记即包含您感兴趣的信息。

不确定您使用的是哪种语言,但您可以找到一些可以帮助您的语言库。


如果网站没有导出RSS / ATOM提要......那么,你可能不得不回退到HTML报废;祝你好运,因为HTML的结构不如RSS / ATOM:你必须找到每个网站,页面中相关信息的位置。

答案 1 :(得分:1)

Google新闻展示的大多数内容都是RSS / ATOM。与抓取相比,通过RSS提要获取网站内容太容易了。

除此之外,如果您可以使用Java,那么您可以使用优秀的库Goose自行删除HTML。它类似于Flipboard / Instapaper使用的