Apache nutch获取但不保存文件内容

时间:2015-02-18 01:44:05

标签: cassandra nutch

我让nutch抓取本地文件:http://localhost:8080/a.txt。我正在运行HTTP服务器,我可以看到nutch试图访问该文件(在它之前,/ robots.txt)。我使用cassandra作为后端。

但是,我无法从抓取中看到任何数据。当我做 ./bin/nutch readdb -dump data ...,我得到以下输出。

有人可以帮我解决这个问题吗?网页数据在哪里?

$ cat data / part-r-00000 http://localhost:8000/a.html密钥:localhost:http:8000 / a.html baseUrl:null 状态:2(status_fetched) fetchTime:1426811920382 prevFetchTime:1424219908314 fetchInterval:2592000 retriesSinceFetch:0 modifiedTime:0 prevModifiedTime:0 protocolStatus:(null) parseStatus :( null)

0 个答案:

没有答案