Question

我正在做一个简单的抓取任务，用于抓取来自雅虎新闻（http://news.yahoo.com/peter-kassig-mother-isis-twitter-133155662.html）的新闻评论。这是我的代码：

import urllib
url2 = 'http://news.yahoo.com/_xhr/contentcomments/get_comments/?content_id=f8bf9dc7-1692-3283-825e-2d506952f57b&_device=full&count=10&sortBy=highestRated&isNext=true&offset=20&pageNumber=2&_media.modules.content_comments.switches._enable_view_others=1&_media.modules.content_comments.switches._enable_mutecommenter=1&enable_collapsed_comment=1'
url1 = 'http://news.yahoo.com/_xhr/contentcomments/get_comments/?content_id=f8bf9dc7-1692-3283-825e-2d506952f57b&_device=full&count=10&sortBy=highestRated&isNext=true&offset=10&pageNumber=1&_media.modules.content_comments.switches._enable_view_others=1&_media.modules.content_comments.switches._enable_mutecommenter=1&enable_collapsed_comment=1'


url15 = 'http://news.yahoo.com/_xhr/contentcomments/get_comments/?content_id=f8bf9dc7-1692-3283-825e-2d506952f57b&_device=full&count=10&sortBy=highestRated&isNext=true&offset=10&pageNumber=15&_media.modules.content_comments.switches._enable_view_others=1&_media.modules.content_comments.switches._enable_mutecommenter=1&enable_collapsed_comment=1'
u1 = urllib.urlopen(url1)
u2 = urllib.urlopen(url2)

u15 = urllib.urlopen(url15)

data1 = u1.read()
data2 = u2.read()

data15 = u15.read()

# data15 is same with data2!!!

我知道这些评论是通过使用GET（来自Google Web Dev。 - 网络标签）给出的，这意味着我可以使用网址来抓取评论。 url1，url2和url5之间只有两个差异（pageNumber和offset）。

虽然url1用于pageNumber = 1而url15用于pageNumber = 15，但它是相同的数据！我不知道原因。

这是我第一次天真的网页抓取任务。

提前谢谢你。

使用HTTP GET进行Python爬行的在线新闻评论

0 个答案: