nutch使用的协议

时间:2012-06-05 06:52:12

标签: protocols nutch charles-proxy

有人可以告诉我nutch用于获取页面的协议。 我想检查一下荷兰人提出的要求是什么?

我使用charles代理查看请求信息但遗憾的是没有在那里获得。 我错过了关于查尔斯代理或关于荷兰的事情吗?

我也尝试过wireshark,但是有太多的数据包,我无法确定哪一个是nutch?

请帮助..

1 个答案:

答案 0 :(得分:0)

Nutch是一个网络爬虫,所以我猜它正在使用HTTP协议。很可能 HTTP GET 来抓取页面。

如果您需要更多信息(例如,nutch的用户年龄),请考虑在您的计算机上设置Apache Web服务器并抓取一些测试页。然后看看apache访问日志。