我想构建一个包含大约2000-3000个网页的数据集,从几个种子网址开始。我尝试使用Nutch爬虫,但我无法完成它(无法转换提取到html页面的'segment'数据)。
您使用过的其他任何爬虫或任何其他工具的建议?如果网页包含绝对URL会导致数据集无法离线使用,该怎么办?
答案 0 :(得分:1)
您无法直接将nutch抓取的细分直接转换为html文件。
我建议你这些选择:
org.apache.nutch.segment.SegmentReader
课程。然后你可以根据你的使用案例深入研究它。)bin/nutch readdb
”命令(使用转储选项)获取实际URL。然后编写一个脚本来获取URL并以html格式保存。完成!!