我想从少数交易所检索所有股票 - 通过检索这些交易所内的股票(从http://www.nasdaq.com/screening/company-list.aspx获取)。
然后我将引用谷歌或雅虎的所有股票。
我的问题是,如果我每5秒或10秒钟引用所有这些内容 - 它们会阻止我吗?
获取所有股票及更新数据的正确方法是什么?
谢谢!
答案 0 :(得分:1)
大卫,
如果你在你的代码中插入暂停,那么你可以(抓2000个股票); dr - yahoo finace我有一些笨拙,但工作代码(我第一次尝试报废)从雅虎财经中提取一些数据。虽然我不喜欢这些代码,但我会在接下来的几周内为nasdaq.com重写代码,我可以告诉你我没有被封锁。
我有几年的Russel 2000股票清单所以有大约2,000个代码我正在慢慢地通过并从资产负债表中提取一些数据。我正在使用Selenium(请参阅我的问题历史记录,只有一个可以查看/获取正常工作的代码),代码加载Chromium Web浏览器(Linux)点击资产负债表,抓取一些数据,点击季度链接,查看更多数据然后关闭浏览器。对于每个股票代码(股票)。
为了安全起见,我在我的代码中放了几个暂停,对于我在5到10秒之间添加的每个网站上的废料或导航。那样我慢慢地抓数据,雅虎似乎没关系:-)每个自动收报机需要大约一分钟。我正在运行这个废料工作(第一次!)现在超过30小时大声笑,我目前正处于以T开头的股票代码,所以我还有更长的时间可以去。
我已经读过一些地方,有些网站也可以发现这种缓慢的刮擦。因此,作为一个想法,而不是只需7秒的硬代码暂停,你可以在IDK之间运行随机数生成器,7-15秒,这样暂停将更随机,更不容易被发现...只是一个虽然希望即使有延迟,这也有点帮助。
啊,如果这个答案确实对你有所帮助,请非常友好地将其标记为已解决并投票。也许我可以得到一两点。我的观点太低了,我甚至无法投票给我喜欢的其他帖子,这对我有帮助。