我对nutch很新。我已经使用nutch 1.2成功抓取了一个站点并通过 readseg 命令提取了段转储,但问题是转储包含除url和outlinks之外的大量信息,如果我想分析它,手动方法需要是采纳。 如果有任何utiltiy插件导出带有机器可读格式的链接的链接,如csv或sql,那将是非常好的。 请建议
答案 0 :(得分:0)
通常,您必须编写自己的应用程序才能执行此操作。您可以提供其他标志来删除不必要的数据。
http://wiki.apache.org/nutch/bin/nutch%20readseg
检查可以使用哪些标志来减少数据。
或者使用hadoop FS库编写自己的应用程序会更好,然后以编程方式直接提取信息。