dataset - 通过Web爬网创建数据集 - Thinbug

通过Web爬网创建数据集

时间：2012-01-22 12:21:38

标签： dataset web-crawler nutch

我想构建一个包含大约2000-3000个网页的数据集，从几个种子网址开始。我尝试使用Nutch爬虫，但我无法完成它（无法转换提取到html页面的'segment'数据）。

您使用过的其他任何爬虫或任何其他工具的建议？如果网页包含绝对URL会导致数据集无法离线使用，该怎么办？

1 个答案:

答案 0 :(得分：1)

您无法直接将nutch抓取的细分直接转换为html文件。

我建议你这些选择：

您可以尝试修改源代码来执行此操作。（学习org.apache.nutch.segment.SegmentReader课程。然后你可以根据你的使用案例深入研究它。）
EASY SOLUTION如果您不想花时间学习代码：使用nutch抓取所有必需的页面。然后使用“bin/nutch readdb”命令（使用转储选项）获取实际URL。然后编写一个脚本来获取URL并以html格式保存。完成!!