通过Web爬网创建数据集

时间:2012-01-22 12:21:38

标签: dataset web-crawler nutch

我想构建一个包含大约2000-3000个网页的数据集,从几个种子网址开始。我尝试使用Nutch爬虫,但我无法完成它(无法转换提取到html页面的'segment'数据)。

您使用过的其他任何爬虫或任何其他工具的建议?如果网页包含绝对URL会导致数据集无法离线使用,该怎么办?

1 个答案:

答案 0 :(得分:1)

您无法直接将nutch抓取的细分直接转换为html文件。

我建议你这些选择:

  1. 您可以尝试修改源代码来执行此操作。 (学习org.apache.nutch.segment.SegmentReader课程。然后你可以根据你的使用案例深入研究它。)
  2. EASY SOLUTION如果您不想花时间学习代码:使用nutch抓取所有必需的页面。然后使用“bin/nutch readdb”命令(使用转储选项)获取实际URL。然后编写一个脚本来获取URL并以html格式保存。完成!!