Question

我创建了一个Facebook风格的url scraper用于发布内容。当有人输入网址时，它会发送请求，而在后端我使用nokogiri来抓取网址以提取信息来构建帖子。

继承问题它适用于所有其他网站（例如apple.com，sony.com ....）但是当我从我的原始域（即mywebsite.com）放入一个链接时，它超时，没有错误显示除了heroku在30秒后超时请求。如果我从我的计算机上的本地主机上抓取我的域，它可以正常工作。是否有某种原产地规则阻止nokogiri从同一域中抓取页面来源？

Ruby On Rails 3.1.10

nokogiri（1.4.7）

Heroku Cedar Stack

Answer 1

抓取是在后台工作还是通过网络工作者进行？你只有1个dyno吗？如果您的应用只有一名网络工作者，那么它可能正忙于尝试抓取，因此无法为该网页提供服务。

尝试将你的dynos缩放到2并查看问题是否仍然存在。

heroku ps:scale web=2

Heroku网站无法抓取源自同一域的网页

1 个答案: