如何在不使用API​​的情况下抓取社交网站?

时间:2014-07-15 17:19:26

标签: web-scraping web-crawler

我想从Pinterest,Twitter或Facebook等社交网站收集数据。我知道其中一些(如Twitter)提供了API,但我不想使用API​​,因为它可能有许多缺点。我的问题是如何直接抓取/抓取这些社交网站?

我知道如何对一般网站进行简单抓取。但是,尝试抓取社交网站时的第一个问题是我需要登录。有人知道如何解决这个问题吗?

谢谢你们!

2 个答案:

答案 0 :(得分:1)

这几乎是针对他们所有的服务协议。

但是如果你这么做的话,基本上你可以去两条路线

1)您可以创建一个实际的爬虫,您可以创建一个Web浏览器。然后你管理你的cookie等...所以你有这样的登录。这通常更容易被他们发现,尽管你可以聪明地发现它。

2)您可以创建某种模拟用户点击或诸如此类的自动化软件。我已经在这个方面取得了一些成功,因为只要你开采得太快,用户就会被模拟。

答案 1 :(得分:-1)

像<{3}}这样的

HTTP客户端库使您能够以编程方式获取和使用Cookie并执行POST请求,因此您(至少在原则上)应该能够模仿您的编程当你浏览这些网站时会发生什么。

当然,这些网站可能会发生变化,您必须适应。

也许使用libcurl(例如,通过一些特殊配置的Squid代理)也可能是相关的。