我有一个xlsx文件,其中包含期刊摘要,作者,标题栏。我正在尝试从数据中加载数据帧以进行进一步分析,但遇到诸如编码,内存缓冲区问题之类的错误。 然后,我尝试仅加载作者专栏,但错误相同。 有人可以提出解决方案吗?
样本数据集
作者
{'Oliver Jonas':'麻萨诸塞州麻省理工学院。'
{'Jia-Ren Lin':'哈佛医学院,马萨诸塞州;','Benjamin Izar':'Dana-Farber癌症研究所,哈佛大学和麻省理工学院,马萨诸塞州波士顿;','Daniel Treacy ”:“马萨诸塞州波士顿达纳-法伯癌症研究所;”,“马克·沃兹沃思”}
答案 0 :(得分:0)
我尝试了以下操作:
文件authors.xlsx
:
请注意,我使用LibreOffice Calc来编辑表,但是我将文档另存为.xlsx
然后我用pandas.read_excel来阅读它:
import pandas as pd
df = pd.read_excel('authors.xlsx')
然后您可以按列查询数据框,从而正确返回值:
在:
df['Name']
出:
0 Jia-Ren Lin
1 Benjamin Izar
2 Daniel Treacy
Name: Name, dtype: object