应用错误收集

时间：2014-03-09 14:47:55

标签： apache hadoop web-scraping nutch

任何人都知道提取包装外链接URL的文本上下文的有效方法。例如，给定此示例文本包含外链：

Nutch可以在一台机器上运行，但通过在Hadoop集群中运行可以获得很大的优势。你可以下载Nutch here。有关Apache Nutch的更多信息，请参阅Nutch wiki。

在这个例子中，我希望得到包含该链接的句子，以及该句子之前和之后的句子。有效地做到这一点的任何方式？我可以调用任何方法来获取类似于获取内容中链接位置的方法吗？或者甚至是我可以修改的nutch代码的一部分来做到这一点？谢谢！

答案 0 :(得分：4)

您想要做的是网页搜寻。 Python和Hadoop为此提供了工具。要实现它，您可以使用选择器。

在这里，您可以找到一些使用Python Scrapy的示例：

在Hadoop上，最好的方法是使用选择器实现抓取：

cascading可用于处理您指定的网址：

获得数据后，您还可以使用R来优化分析：

如果你还没有对Hadoop做过什么，那么这是一个很好的开始point。您可能还希望查看HUE Beeswax作为对数据分析非常有用的交互式工具。