应用错误收集

是否可以抓取黑暗网页？

时间：2017-02-17 12:47:52

标签： web-crawler analytics bigdata

到目前为止，我正在抓取来自不同来源的数据，如实时流媒体Twitter和Facebook API，并将其存储在单独的数据库中。之后，我正在使用这些大数据来了解用户行为和其他一些分析。

我想要做的是相同但在Dark Web Pages，我想抓取所有可以被TOR资源管理器访问的网页。我在几个博客中搜索过这样的事情，但我发现他们所有人都只抓取日志文件。

是否可以像使用社交媒体平台API一样抓取黑暗网页？

1 个答案:

答案 0 :(得分：1)

是的，可能 - 我们多年来一直在这样做。我们使用Ubuntu，因此我们在我们的抓取工具上安装tor：

apt get install tor

我们的python脚本通过端口9050运行urllib针对服务的.onion链接请求。

如果您不想开发自己的抓取工具，欢迎您在https://webhose.io尝试我们的抓取工具