应用错误收集

时间：2014-07-15 17:19:26

标签： web-scraping web-crawler

我想从Pinterest，Twitter或Facebook等社交网站收集数据。我知道其中一些（如Twitter）提供了API，但我不想使用API，因为它可能有许多缺点。我的问题是如何直接抓取/抓取这些社交网站？

我知道如何对一般网站进行简单抓取。但是，尝试抓取社交网站时的第一个问题是我需要登录。有人知道如何解决这个问题吗？

谢谢你们！

答案 0 :(得分：1)

这几乎是针对他们所有的服务协议。

但是如果你这么做的话，基本上你可以去两条路线

1）您可以创建一个实际的爬虫，您可以创建一个Web浏览器。然后你管理你的cookie等...所以你有这样的登录。这通常更容易被他们发现，尽管你可以聪明地发现它。

2）您可以创建某种模拟用户点击或诸如此类的自动化软件。我已经在这个方面取得了一些成功，因为只要你开采得太快，用户就会被模拟。

答案 1 :(得分：-1)

像<{3}}这样的

HTTP客户端库使您能够以编程方式获取和使用Cookie并执行POST请求，因此您（至少在原则上）应该能够模仿您的编程当你浏览这些网站时会发生什么。

当然，这些网站可能会发生变化，您必须适应。

也许使用libcurl（例如，通过一些特殊配置的Squid代理）也可能是相关的。