我可以在windows xp上通过cygwin成功运行crawl命令。我也可以使用tomcat进行网页搜索。
但我也希望在抓取活动期间保存已解析的网页
所以当我开始像这样爬行时
bin / nutch crawl urls -dir crawled -depth 3
我还希望将已解析的html文件保存为文本文件
我的意思是在这个时期我从上面的命令开始
nutch在获取页面时也会自动将解析后的页面(仅文本)保存到文本文件中
可以获取这些文件名url
我真的需要这方面的帮助
这将用于我的大学语言检测项目
TY
答案 0 :(得分:1)
已抓取的网页存储在细分中。您可以通过转储细分内容来访问它们:
nutch readseg -dump crawl/segments/20100104113507/ dump
您必须为每个细分都执行此操作。