如何在抓取时解析(仅文本)网站

时间:2010-04-06 20:23:37

标签: parsing nutch

我可以在windows xp上通过cygwin成功运行crawl命令。我也可以使用tomcat进行网页搜索。

但我也希望在抓取活动期间保存已解析的网页

所以当我开始像这样爬行时

bin / nutch crawl urls -dir crawled -depth 3

我还希望将已解析的html文件保存为文本文件

我的意思是在这个时期我从上面的命令开始

nutch在获取页面时也会自动将解析后的页面(仅文本)保存到文本文件中

可以获取这些文件名url

我真的需要这方面的帮助

这将用于我的大学语言检测项目

TY

1 个答案:

答案 0 :(得分:1)

已抓取的网页存储在细分中。您可以通过转储细分内容来访问它们:

nutch readseg -dump crawl/segments/20100104113507/ dump

您必须为每个细分都执行此操作。