我让nutch抓取本地文件:http://localhost:8080/a.txt。我正在运行HTTP服务器,我可以看到nutch试图访问该文件(在它之前,/ robots.txt)。我使用cassandra作为后端。
但是,我无法从抓取中看到任何数据。当我做 ./bin/nutch readdb -dump data ...,我得到以下输出。
有人可以帮我解决这个问题吗?网页数据在哪里?
$ cat data / part-r-00000 http://localhost:8000/a.html密钥:localhost:http:8000 / a.html baseUrl:null 状态:2(status_fetched) fetchTime:1426811920382 prevFetchTime:1424219908314 fetchInterval:2592000 retriesSinceFetch:0 modifiedTime:0 prevModifiedTime:0 protocolStatus:(null) parseStatus :( null)