剥离网页的不相关部分

时间:2011-05-18 21:19:52

标签: python screen-scraping web-scraping

是否有通过Python抓取网页时剥离网页不相关部分的API或系统方法?例如,采取这个页面 - 唯一重要的部分是问题和答案,而不是侧栏栏,标题等。人们可以猜到这样的事情,但是有没有聪明的方法呢?

4 个答案:

答案 0 :(得分:3)

一般来说,没有。在特定情况下,如果您对要抓取的网站的结构有所了解,可以使用Beautiful Soup之类的工具来操作DOM。

答案 1 :(得分:3)

来自Readability书签的方法,至少有两个Python实现可用:

答案 2 :(得分:1)

一种方法是比较共享同一模板的多个网页的结构。在这种情况下,您将比较多个SO问题。然后,您可以确定哪些内容是静态的(无用的)或动态的(有用的)。

此字段称为包装器归纳。不幸的是它比听起来更难!

答案 3 :(得分:0)

这个github项目解决了你的问题,但它是用Java编写的。值得一看:goose