有关获取Google搜索结果和清除HTML标记的建议

时间:2011-03-04 21:36:50

标签: python html nlp

我正在开发一个项目来获取Google搜索网页,然后清理HTML标记以获取纯文本内容。

对可用工具的任何建议(尤其是Python工具)

非常感谢。

3 个答案:

答案 0 :(得分:2)

我查看了Pattern,这是一个Python Web挖掘模块,提供了一套文本检索,分析和viz工具。我没有亲自使用它,但看起来很强大。

模块pattern.web是一个Web工具包,它将各种API(Google,Gmail,Bing,Twitter,Wikipedia,Flickr)与强大的HTML解析器和Web蜘蛛捆绑在一起。其目的是以易于使用,统一的方式检索在线内容。

答案 1 :(得分:0)

Python有一个内置的实际上很快,找到了here。还有一个名为Beautiful Soup的强大功能,它提供了额外的功能,特别是对于HTML抓取。

但是,我还要问为什么不使用搜索API?

答案 2 :(得分:0)

最后找到了一个不错的套房BootCat