我正在尝试创建数据框,以便能够引用它以进行进一步的数据提取。我坚持如何准确地完成它,我的代码是这样的:
import bs4 as bs
import urllib.request
import pandas as pd
source = urllib.request.urlopen('https://messageboards.webmd.com/').read()
soup = bs.BeautifulSoup(source,'lxml')
for url in soup.find_all('div',class_="link"):
print (url.a.get('href'))
df = pd.DataFrame(columns = ['link'],[for url in soup.find_all('div',class_="link"):])
答案 0 :(得分:2)
你可以这样做:
df = pd.DataFrame(columns=['link'],
data=[url.a.get('href') for url in soup.find_all('div',class_="link")])
答案 1 :(得分:0)
如果您不需要pandas来清理数据,只需将数据保存到txt
或csv
文件
with open('save.txt', 'w') as f:
for url in soup.find_all('div',class_="link"):
print (url.a.get('href'), file=f)