雅虎财务是否禁止网络scrapy?

时间:2017-10-25 01:16:47

标签: scrapy robots.txt yahoo-finance

yahoo robots.txt中的robots.txt说:

User-agent: *
Sitemap: https://finance.yahoo.com/sitemap_en-us_desktop_index.xml
Sitemap: https://finance.yahoo.com/sitemaps/finance-sitemap_index_US_en-US.xml.gz
Disallow: /r/
Disallow: /__rapidworker-1.2.js
Disallow: /__blank
Disallow: /_td_api
Disallow: /_remote

雅虎是否会禁止网络scrapy? 雅虎金融网站不允许什么? 我们可以从雅虎的robots.txt文件中推断出什么?

2 个答案:

答案 0 :(得分:1)

robots.txt文件中没有任何内容明确阻止您抓取雅虎财经,但雅虎财务由Yahoo's Terms of Service管理。

本文档中最相关的部分基本上表示您不应该做任何会干扰其服务的事情。实际上,这意味着如果你打算在雅虎财经上搜索数据,你应该负责任地(不是数千个请求,因为这会很快让你被禁止)。

也就是说,网页抓取效率通常很低(因为您正在重新加载整个HTML页面,只是为了以编程方式收集数据)。我会考虑使用API​​(like those discussed here),因为这将是a)更可靠b)更快,c)绝对合法。

答案 1 :(得分:1)

他们没有禁止这样做,但是我的抓取工具每30秒就会吸引数百家公司,此后,他们的网站一直在改变格式。我也注意到了一些新东西,实际上它们实际上会通过用N / A替换一些变量并误导您的程序来稍微阻塞您的路由器IP,因此他们没有声明禁止这样做,但绝对不会就像你这样做。因此,我所说的都是偷偷摸摸的。