是否可以抓取黑暗网页?

时间:2017-02-17 12:47:52

标签: web-crawler analytics bigdata

到目前为止,我正在抓取来自不同来源的数据,如实时流媒体Twitter和Facebook API,并将其存储在单独的数据库中。之后,我正在使用这些大数据来了解用户行为和其他一些分析。

我想要做的是相同但在Dark Web Pages,我想抓取所有可以被TOR资源管理器访问的网页。我在几个博客中搜索过这样的事情,但我发现他们所有人都只抓取日志文件。

是否可以像使用社交媒体平台API一样抓取黑暗网页?

1 个答案:

答案 0 :(得分:1)

是的,可能 - 我们多年来一直在这样做。我们使用Ubuntu,因此我们在我们的抓取工具上安装tor:

apt get install tor

我们的python脚本通过端口9050运行urllib针对服务的.onion链接请求。

如果您不想开发自己的抓取工具,欢迎您在https://webhose.io尝试我们的抓取工具