是否有通过Python抓取网页时剥离网页不相关部分的API或系统方法?例如,采取这个页面 - 唯一重要的部分是问题和答案,而不是侧栏栏,标题等。人们可以猜到这样的事情,但是有没有聪明的方法呢?
答案 0 :(得分:3)
一般来说,没有。在特定情况下,如果您对要抓取的网站的结构有所了解,可以使用Beautiful Soup之类的工具来操作DOM。
答案 1 :(得分:3)
来自Readability书签的方法,至少有两个Python实现可用:
答案 2 :(得分:1)
一种方法是比较共享同一模板的多个网页的结构。在这种情况下,您将比较多个SO问题。然后,您可以确定哪些内容是静态的(无用的)或动态的(有用的)。
此字段称为包装器归纳。不幸的是它比听起来更难!
答案 3 :(得分:0)
这个github项目解决了你的问题,但它是用Java编写的。值得一看:goose