标签: nutch
Apache Nutch建议http://rdf.dmoz.org/rdf/content.rdf.u8.gz作为网络抓取的种子网址。但是,他们关闭了网站。是否有用于网页抓取的替代种子网址?
答案 0 :(得分:1)
我建议您查看http://commoncrawl.org。我认为他们提供了一个非常全面的数据集。