任何人都知道提取包装外链接URL的文本上下文的有效方法。例如,给定此示例文本包含外链:
Nutch可以在一台机器上运行,但通过在Hadoop集群中运行可以获得很大的优势。你可以下载Nutch here。 有关Apache Nutch的更多信息,请参阅Nutch wiki。
在这个例子中,我希望得到包含该链接的句子,以及该句子之前和之后的句子。有效地做到这一点的任何方式?我可以调用任何方法来获取类似于获取内容中链接位置的方法吗?或者甚至是我可以修改的nutch代码的一部分来做到这一点?谢谢!
答案 0 :(得分:4)
您想要做的是网页搜寻。 Python和Hadoop为此提供了工具。要实现它,您可以使用选择器。
在这里,您可以找到一些使用Python Scrapy的示例:
在Hadoop上,最好的方法是使用选择器实现抓取:
cascading可用于处理您指定的网址:
获得数据后,您还可以使用R来优化分析:
如果你还没有对Hadoop做过什么,那么这是一个很好的开始point。您可能还希望查看HUE Beeswax作为对数据分析非常有用的交互式工具。