Question

我是websoup的初学者，我无法在以下网站http://www.newyorksocialdiary.com/party-pictures（http://www.newyorksocialdiary.com/party-pictures?page=1-5）＆amp;上抓取几页（5）。我不知道如何将输出放在数据框（日期）中。谢谢！

  from bs4 import BeautifulSoup
  import requests
  for i in range(10):
     url= "http://www.newyorksocialdiary.com/party-pictures".format(i)
     r=requests.get(url)
     soup= BeautifulSoup(r.text)

 for r in soup.findAll('span', attrs={'class': 'views-field views-field-created'}) :
     print r.get_text()

Answer 1

project(foo CXX)

你几乎得到它，只需更改你的网址。

Answer 2

尝试抓取网站的一般模式首先要弄清楚网页是如何实现的。

一般

您的情况：通过页面参数？page = 1/2/3这可能是更容易一个，你只需要一个计数器并循环遍历所有页面你需要
1. 通过不同的绝对网址，最简单的网址
2. 通过html帖子请求，这可能会有点棘手。

在您的情况下，它只是一个页面变量，您可以将其附加到基本网址并获得您想要的内容。

对于pandas部分，这是一个方便的read_html选项。

如何刮取后续页面并将输出放在数据框中

2 个答案: