刮取网址内容的某些指定部分

时间:2016-01-20 06:18:42

标签: php python web-scraping

我正在使用Beautiful Souppyquery(在python上)和pquery(在php上)来抓取(解析并获取我想要的url html部分),但我有一个他们的问题,我想尝试获取它们的URL数量太多,所有这些方法首先尝试加载页面的所有部分我们可以用欲望选择器来废弃它,我只需要那些页面的一部分,如示例只指定了类,但我必须得到所有页面,导致带宽消耗更多。

我想知道是否有任何方式(我的知识告诉我没有,但我问可能有人有想法或伎俩)或工具,而不是所有页面只尝试获取指定的一部分?

更多deatils:

假设我想在此页面中获取我的答案标题,网址为https://stackoverflow.com/posts/34892845 我只想要question-hyperlink的文字。我想获得标题而不获取整个页面数据(我不想获取整个页面,因为在批量操作中节省了我的带宽)

0 个答案:

没有答案