每日交易聚合商如何从不同交易网站获取数据?

时间:2011-08-05 10:45:33

标签: javascript python screen-scraping web-scraping

我想知道每日交易聚合商如何从不同交易网站中废弃数据?我见过许多交易网站,它们不提供API和RSS提要,但这些聚合器仍然会从中提取数据。 这里有一些我指的网站

http://www.thedealmap.com/

http://www.dealmandi.com/

2 个答案:

答案 0 :(得分:5)

如果网站没有提供任何API或RSS提要,仍然可以通过查询信息所在的页面并从返回的HTML中提取数据,从“旧学校方式”中提取数据。

Python中,可以使用urllib2requests查询网页,lxmlBeautifulSoup从HTML中提取数据。对于更大的项目,请尝试使用scrapy框架,该框架提供编码复杂蜘蛛的所有内容。

答案 1 :(得分:1)

当我构建LesserThan - http://lesserthan.com时 - 我发现大多数API或RSS源都未发布。只有在您注册会员帐户后,他们才会为您提供RSS源的URL。