Webscrape最后一步,将元素引入熊猫df

时间:2020-04-07 01:48:01

标签: python pandas beautifulsoup

我正在运行webscrape,在将文本/链接转换为pd表以导出到excel的最后过程中遇到麻烦。我有两列:标题和搜索(链接),并且我使用了以下代码:

df = []

for link in soup.find_all('a'):
     title = link.get('title')
     seek = link.get('href')
     df.append(title)
     df.append(seek)

print(df)

然后df返回下面的输出,它们全部在一行中:

'title text' , 'seek link', 'title text', 'seek link', 'title text' , 'seek link' etc etc

我的下一行代码将是创建带有“ title”列和“ seek”链接的pandas数据框吗?看起来像这样:

Col 1 = title        |      Col 2 =seek
title text           |      seek link
title text           |      seek link
title text           |      seek link

非常感谢!

1 个答案:

答案 0 :(得分:0)

保存标题并独立搜索,然后制作数据框。

Title_list = []
Seek_list = []

for link in soup.find_all('a'):
     title = link.get('title')
     seek = link.get('href')
     Title_list.append(title)
     Seek_list.append(seek)

df = pd.DataFrame({"Title":Title_list, "Seek":Seek_list})