我是websoup的初学者,我无法在以下网站http://www.newyorksocialdiary.com/party-pictures(http://www.newyorksocialdiary.com/party-pictures?page=1-5)&上抓取几页(5)。我不知道如何将输出放在数据框(日期)中。谢谢!
from bs4 import BeautifulSoup
import requests
for i in range(10):
url= "http://www.newyorksocialdiary.com/party-pictures".format(i)
r=requests.get(url)
soup= BeautifulSoup(r.text)
for r in soup.findAll('span', attrs={'class': 'views-field views-field-created'}) :
print r.get_text()
答案 0 :(得分:2)
project(foo CXX)
你几乎得到它,只需更改你的网址。
答案 1 :(得分:1)
尝试抓取网站的一般模式首先要弄清楚网页是如何实现的。
一般
您的情况:通过页面参数?page = 1/2/3这可能是 更容易一个,你只需要一个计数器并循环遍历所有页面 你需要
通过不同的绝对网址,最简单的网址
通过html帖子请求,这可能会有点棘手。
在您的情况下,它只是一个页面变量,您可以将其附加到基本网址并获得您想要的内容。
对于pandas部分,这是一个方便的read_html
选项。