我想知道每日交易聚合商如何从不同交易网站中废弃数据?我见过许多交易网站,它们不提供API和RSS提要,但这些聚合器仍然会从中提取数据。 这里有一些我指的网站
答案 0 :(得分:5)
如果网站没有提供任何API或RSS提要,仍然可以通过查询信息所在的页面并从返回的HTML中提取数据,从“旧学校方式”中提取数据。
在Python
中,可以使用urllib2
或requests
查询网页,lxml
或BeautifulSoup
从HTML中提取数据。对于更大的项目,请尝试使用scrapy
框架,该框架提供编码复杂蜘蛛的所有内容。
答案 1 :(得分:1)
当我构建LesserThan - http://lesserthan.com时 - 我发现大多数API或RSS源都未发布。只有在您注册会员帐户后,他们才会为您提供RSS源的URL。