Apache Nutch:获取outlink URL的文本上下文

时间:2014-03-09 14:47:55

标签: apache hadoop web-scraping nutch

任何人都知道提取包装外链接URL的文本上下文的有效方法。例如,给定此示例文本包含外链:

  

Nutch可以在一台机器上运行,但通过在Hadoop集群中运行可以获得很大的优势。你可以下载Nutch here。   有关Apache Nutch的更多信息,请参阅Nutch wiki。

在这个例子中,我希望得到包含该链接的句子,以及该句子之前和之后的句子。有效地做到这一点的任何方式?我可以调用任何方法来获取类似于获取内容中链接位置的方法吗?或者甚至是我可以修改的nutch代码的一部分来做到这一点?谢谢!

1 个答案:

答案 0 :(得分:4)

您想要做的是网页搜寻。 Python和Hadoop为此提供了工具。要实现它,您可以使用选择器。

在这里,您可以找到一些使用Python Scrapy的示例:

在Hadoop上,最好的方法是使用选择器实现抓取:

cascading可用于处理您指定的网址:

获得数据后,您还可以使用R来优化分析:

如果你还没有对Hadoop做过什么,那么这是一个很好的开始point。您可能还希望查看HUE Beeswax作为对数据分析非常有用的交互式工具。