如何使用Python& amp ;;在Kickstarter项目中使用web-scrape创建者-bio BS4

时间:2018-02-27 15:01:16

标签: python web-scraping beautifulsoup

我是一名财务硕士生,现在写论文。我正在分析影响Kickstarter成功融资概率的因素。我从webrobots.io获得了一个数据集,但是我缺少一些变量(没有得到完整的公共数据库的链接)。事实上,我需要有关创始人的信息(之前创建的项目数量,支持的项目数量,fb朋友数量)。单击创建者姓名时,此信息仅在窗口中弹出。

因此,我拥有示例中我的5000个项目中的每个项目的URL,并希望为每个链接抓取creator-bio。我已经开始观看教程(例如“https://www.youtube.com/watch?v=3xQTJi2tqgk”),并试图想出一些东西。当我点击创始人的名字或头像时,会打开所需的弹出窗口,当我点击'inspect element'时,我找到了我需要的“div”。然而,在我点击链接之前,这个特殊的“div”并不存在(对我有意义)。我找到了一个链接('a',它有相同的url,但最后只是一个“... / creator-bio”。我认为有一种方法可以打开这个链接,然后从中获取信息需要“div”。

我会发布到目前为止的代码,但请记住,我没有太多经验,我试图自己解决。

的Python:

import requests
from bs4 import BeautifulSoup

url = "https://www.kickstarter.com/projects/551342300/radically-efficient-
design-for-people-transport"

r = requests.get(url)

soup = BeautifulSoup(r.content)

links = soup.find_all("a")

for links in links:
    print "<a href='%s'>%s</a>" %(link.get("href"), link.text)

creator_bio = soup.find_all("a", {"class": "creator-bio"})

print creator_bio

for item in creator_bio:
    print item.text

1 个答案:

答案 0 :(得分:1)

我导航到了网址:https://www.kickstarter.com/projects/551342300/radically-efficient-design-for-people-transport/creator_bio

它提取了名称,城市/州,最后登录以及其他信息。我相信你应该抓住这个页面。