从xlsx文件创建熊猫数据框

时间:2018-08-08 22:30:18

标签: python pandas

我有一个xlsx文件,其中包含期刊摘要,作者,标题栏。我正在尝试从数据中加载数据帧以进行进一步分析,但遇到诸如编码,内存缓冲区问题之类的错误。 然后,我尝试仅加载作者专栏,但错误相同。 有人可以提出解决方案吗?

样本数据集

作者

{'Oliver Jonas':'麻萨诸塞州麻省理工学院。'

{'Jia-Ren Lin':'哈佛医学院,马萨诸塞州;','Benjamin Izar':'Dana-Farber癌症研究所,哈佛大学和麻省理工学院,马萨诸塞州波士顿;','Daniel Treacy ”:“马萨诸塞州波士顿达纳-法伯癌症研究所;”,“马克·沃兹沃思”}

1 个答案:

答案 0 :(得分:0)

我尝试了以下操作:

文件authors.xlsx

authors

请注意,我使用LibreOffice Calc来编辑表,但是我将文档另存为.xlsx

然后我用pandas.read_excel来阅读它:

import pandas as pd df = pd.read_excel('authors.xlsx')

然后您可以按列查询数据框,从而正确返回值:

在: df['Name']

出: 0 Jia-Ren Lin 1 Benjamin Izar 2 Daniel Treacy Name: Name, dtype: object