尝试从网站提取的列表中创建数据框

时间:2017-01-18 02:57:50

标签: python pandas web-scraping extraction

我正在尝试创建数据框,以便能够引用它以进行进一步的数据提取。我坚持如何准确地完成它,我的代码是这样的:

import bs4 as bs
import urllib.request
import pandas as pd


source = urllib.request.urlopen('https://messageboards.webmd.com/').read()

soup = bs.BeautifulSoup(source,'lxml')

for url in soup.find_all('div',class_="link"):
    print (url.a.get('href'))

df = pd.DataFrame(columns = ['link'],[for url in soup.find_all('div',class_="link"):])

2 个答案:

答案 0 :(得分:2)

你可以这样做:

df = pd.DataFrame(columns=['link'],
            data=[url.a.get('href') for url in soup.find_all('div',class_="link")])

答案 1 :(得分:0)

如果您不需要pandas来清理数据,只需将数据保存到txtcsv文件

with open('save.txt', 'w') as f:
    for url in soup.find_all('div',class_="link"):
        print (url.a.get('href'), file=f)