如何刮取后续页面并将输出放在数据框中

时间:2017-01-30 00:57:46

标签: python beautifulsoup

我是websoup的初学者,我无法在以下网站http://www.newyorksocialdiary.com/party-pictureshttp://www.newyorksocialdiary.com/party-pictures?page=1-5)&上抓取几页(5)。我不知道如何将输出放在数据框(日期)中。谢谢!

  from bs4 import BeautifulSoup
  import requests
  for i in range(10):
     url= "http://www.newyorksocialdiary.com/party-pictures".format(i)
     r=requests.get(url)
     soup= BeautifulSoup(r.text)

 for r in soup.findAll('span', attrs={'class': 'views-field views-field-created'}) :
     print r.get_text()

2 个答案:

答案 0 :(得分:2)

project(foo CXX)

你几乎得到它,只需更改你的网址。

答案 1 :(得分:1)

尝试抓取网站的一般模式首先要弄清楚网页是如何实现的。

一般

  1. 您的情况:通过页面参数?page = 1/2/3这可能是 更容易一个,你只需要一个计数器并循环遍历所有页面     你需要

    1. 通过不同的绝对网址,最简单的网址

    2. 通过html帖子请求,这可能会有点棘手。

  2. 在您的情况下,它只是一个页面变量,您可以将其附加到基本网址并获得您想要的内容。

    对于pandas部分,这是一个方便的read_html选项。