我需要制作类似于Google新闻的网络应用。 我是否需要学习html报废或其他技术
答案 0 :(得分:1)
最简单的解决方案是获取您尝试从中获取数据的网站的RSS或ATOM Feed。
这些是众所周知的格式,从这样的XML提要中提取信息比从HTML页面获取信息要容易得多:使用RSS / ATOM,您只需解析XML提要,并提取标记即包含您感兴趣的信息。
不确定您使用的是哪种语言,但您可以找到一些可以帮助您的语言库。
如果网站没有导出RSS / ATOM提要......那么,你可能不得不回退到HTML报废;祝你好运,因为HTML的结构不如RSS / ATOM:你必须找到每个网站,页面中相关信息的位置。
答案 1 :(得分:1)
Google新闻展示的大多数内容都是RSS / ATOM。与抓取相比,通过RSS提要获取网站内容太容易了。
除此之外,如果您可以使用Java,那么您可以使用优秀的库Goose自行删除HTML。它类似于Flipboard / Instapaper使用的