标签: nutch warc common-crawl
我在常见抓取网站上找到我的数据,然后从那里下载该数据
现在我必须使用Apache Nutch获取该数据,但不知道如何。
此文件采用warc文件格式。