使用HTTP GET进行Python爬行的在线新闻评论

时间:2014-10-10 04:05:43

标签: python python-2.7 web web-crawler urllib

我正在做一个简单的抓取任务,用于抓取来自雅虎新闻(http://news.yahoo.com/peter-kassig-mother-isis-twitter-133155662.html)的新闻评论。 这是我的代码:

import urllib
url2 = 'http://news.yahoo.com/_xhr/contentcomments/get_comments/?content_id=f8bf9dc7-1692-3283-825e-2d506952f57b&_device=full&count=10&sortBy=highestRated&isNext=true&offset=20&pageNumber=2&_media.modules.content_comments.switches._enable_view_others=1&_media.modules.content_comments.switches._enable_mutecommenter=1&enable_collapsed_comment=1'
url1 = 'http://news.yahoo.com/_xhr/contentcomments/get_comments/?content_id=f8bf9dc7-1692-3283-825e-2d506952f57b&_device=full&count=10&sortBy=highestRated&isNext=true&offset=10&pageNumber=1&_media.modules.content_comments.switches._enable_view_others=1&_media.modules.content_comments.switches._enable_mutecommenter=1&enable_collapsed_comment=1'


url15 = 'http://news.yahoo.com/_xhr/contentcomments/get_comments/?content_id=f8bf9dc7-1692-3283-825e-2d506952f57b&_device=full&count=10&sortBy=highestRated&isNext=true&offset=10&pageNumber=15&_media.modules.content_comments.switches._enable_view_others=1&_media.modules.content_comments.switches._enable_mutecommenter=1&enable_collapsed_comment=1'
u1 = urllib.urlopen(url1)
u2 = urllib.urlopen(url2)

u15 = urllib.urlopen(url15)

data1 = u1.read()
data2 = u2.read()

data15 = u15.read()

# data15 is same with data2!!!

我知道这些评论是通过使用GET(来自Google Web Dev。 - 网络标签)给出的,这意味着我可以使用网址来抓取评论。 url1,url2和url5之间只有两个差异(pageNumber和offset)。

虽然url1用于pageNumber = 1而url15用于pageNumber = 15,但它是相同的数据! 我不知道原因。

这是我第一次天真的网页抓取任务。

提前谢谢你。

0 个答案:

没有答案