尝试从数据框中获取链接以提取信息

时间:2017-01-18 05:28:21

标签: python web-scraping

我正在尝试循环工作,从创建的数据框中获取链接并继续进行更多报废。我究竟做错了什么?源链接是否在循环中读取?

df = pd.DataFrame(columns = ['link'],data=[url.a.get('href') for url in soup.find_all('div',class_="link")])


for i in range(0,33):
    link = df.iloc[i]
    source1 = urllib.request.urlopen(link).read()
    soup1 = bs.BeautifulSoup(source1,'lxml')
    for username in soup1.find_all('div', class_="user-name"):
        print(username.text)

1 个答案:

答案 0 :(得分:0)

您的代码存在的一个问题是您从数据框获取链接的方式。它应该是:

link = df.link.iloc[i]

而不是

link = df.iloc[i]

因为后者返回object,而urlopen(link)则需要string。如果提供错误消息/堆栈跟踪,我们将能够更好地猜测。