我正在做一个简单的抓取任务,用于抓取来自雅虎新闻(http://news.yahoo.com/peter-kassig-mother-isis-twitter-133155662.html)的新闻评论。 这是我的代码:
import urllib
url2 = 'http://news.yahoo.com/_xhr/contentcomments/get_comments/?content_id=f8bf9dc7-1692-3283-825e-2d506952f57b&_device=full&count=10&sortBy=highestRated&isNext=true&offset=20&pageNumber=2&_media.modules.content_comments.switches._enable_view_others=1&_media.modules.content_comments.switches._enable_mutecommenter=1&enable_collapsed_comment=1'
url1 = 'http://news.yahoo.com/_xhr/contentcomments/get_comments/?content_id=f8bf9dc7-1692-3283-825e-2d506952f57b&_device=full&count=10&sortBy=highestRated&isNext=true&offset=10&pageNumber=1&_media.modules.content_comments.switches._enable_view_others=1&_media.modules.content_comments.switches._enable_mutecommenter=1&enable_collapsed_comment=1'
url15 = 'http://news.yahoo.com/_xhr/contentcomments/get_comments/?content_id=f8bf9dc7-1692-3283-825e-2d506952f57b&_device=full&count=10&sortBy=highestRated&isNext=true&offset=10&pageNumber=15&_media.modules.content_comments.switches._enable_view_others=1&_media.modules.content_comments.switches._enable_mutecommenter=1&enable_collapsed_comment=1'
u1 = urllib.urlopen(url1)
u2 = urllib.urlopen(url2)
u15 = urllib.urlopen(url15)
data1 = u1.read()
data2 = u2.read()
data15 = u15.read()
# data15 is same with data2!!!
我知道这些评论是通过使用GET(来自Google Web Dev。 - 网络标签)给出的,这意味着我可以使用网址来抓取评论。 url1,url2和url5之间只有两个差异(pageNumber和offset)。
虽然url1用于pageNumber = 1而url15用于pageNumber = 15,但它是相同的数据! 我不知道原因。
这是我第一次天真的网页抓取任务。
提前谢谢你。