Question

我正在尝试循环工作，从创建的数据框中获取链接并继续进行更多报废。我究竟做错了什么？源链接是否在循环中读取？

df = pd.DataFrame(columns = ['link'],data=[url.a.get('href') for url in soup.find_all('div',class_="link")])


for i in range(0,33):
    link = df.iloc[i]
    source1 = urllib.request.urlopen(link).read()
    soup1 = bs.BeautifulSoup(source1,'lxml')
    for username in soup1.find_all('div', class_="user-name"):
        print(username.text)

Answer 1

您的代码存在的一个问题是您从数据框获取链接的方式。它应该是：

link = df.link.iloc[i]

而不是

link = df.iloc[i]

因为后者返回object，而urlopen(link)则需要string。如果提供错误消息/堆栈跟踪，我们将能够更好地猜测。

尝试从数据框中获取链接以提取信息

1 个答案: