有人可以告诉我nutch用于获取页面的协议。 我想检查一下荷兰人提出的要求是什么?
我使用charles代理查看请求信息但遗憾的是没有在那里获得。 我错过了关于查尔斯代理或关于荷兰的事情吗?
我也尝试过wireshark,但是有太多的数据包,我无法确定哪一个是nutch?
请帮助..
答案 0 :(得分:0)
Nutch是一个网络爬虫,所以我猜它正在使用HTTP协议。很可能 HTTP GET 来抓取页面。
如果您需要更多信息(例如,nutch的用户年龄),请考虑在您的计算机上设置Apache Web服务器并抓取一些测试页。然后看看apache访问日志。