我想从Pinterest,Twitter或Facebook等社交网站收集数据。我知道其中一些(如Twitter)提供了API,但我不想使用API,因为它可能有许多缺点。我的问题是如何直接抓取/抓取这些社交网站?
我知道如何对一般网站进行简单抓取。但是,尝试抓取社交网站时的第一个问题是我需要登录。有人知道如何解决这个问题吗?
谢谢你们!
答案 0 :(得分:1)
这几乎是针对他们所有的服务协议。
但是如果你这么做的话,基本上你可以去两条路线
1)您可以创建一个实际的爬虫,您可以创建一个Web浏览器。然后你管理你的cookie等...所以你有这样的登录。这通常更容易被他们发现,尽管你可以聪明地发现它。
2)您可以创建某种模拟用户点击或诸如此类的自动化软件。我已经在这个方面取得了一些成功,因为只要你开采得太快,用户就会被模拟。
答案 1 :(得分:-1)