在nutch中提取关于url外链的信息

时间:2013-06-27 06:35:16

标签: nutch

我对nutch很新。我已经使用nutch 1.2成功抓取了一个站点并通过 readseg 命令提取了段转储,但问题是转储包含除url和outlinks之外的大量信息,如果我想分析它,手动方法需要是采纳。 如果有任何utiltiy插件导出带有机器可读格式的链接的链接,如csv或sql,那将是非常好的。 请建议

1 个答案:

答案 0 :(得分:0)

通常,您必须编写自己的应用程序才能执行此操作。您可以提供其他标志来删除不必要的数据。

http://wiki.apache.org/nutch/bin/nutch%20readseg

检查可以使用哪些标志来减少数据。

或者使用hadoop FS库编写自己的应用程序会更好,然后以编程方式直接提取信息。

http://wiki.apache.org/hadoop/SequenceFile