Question

尝试从OkCupid中抓取数据并获取相关的文本数据。

例如，用户名数据存储在：

<div class="userinfo2015-basics-username"> AmericanMary666

检索用户名的代码

from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("http://www.okcupid.com/profile/AmericanMary666") 

bsObj = BeautifulSoup(html,"html.parser")
nameList = bsObj.findAll('div', attrs={'class': 'userinfo2015-basics-username'})

for name in nameList:
    print(name.get_text())

它不工作，我不知道为什么。

Answer 1

您提供的链接中没有div个类userinfo2015-basics-username。我的猜测是，您正在查看当前登录的浏览器中的HTML源代码。尝试注销或隐身会话，您将看到不同的来源。您可能希望查看请求模块以验证和维护请求之间的会话。 http://docs.python-requests.org/en/latest/

使用BeautifulSoup从HTML中提取div类文本

1 个答案: