我正在开发一个项目来获取Google搜索网页,然后清理HTML标记以获取纯文本内容。
对可用工具的任何建议(尤其是Python工具)
非常感谢。答案 0 :(得分:2)
我查看了Pattern,这是一个Python Web挖掘模块,提供了一套文本检索,分析和viz工具。我没有亲自使用它,但看起来很强大。
模块pattern.web是一个Web工具包,它将各种API(Google,Gmail,Bing,Twitter,Wikipedia,Flickr)与强大的HTML解析器和Web蜘蛛捆绑在一起。其目的是以易于使用,统一的方式检索在线内容。
答案 1 :(得分:0)
Python有一个内置的实际上很快,找到了here。还有一个名为Beautiful Soup的强大功能,它提供了额外的功能,特别是对于HTML抓取。
但是,我还要问为什么不使用搜索API?
答案 2 :(得分:0)
最后找到了一个不错的套房BootCat。