我正在尝试使用pandas将一堆表读入数据帧。这些文件的扩展名为.xls,但似乎是HTML格式,所以我使用的是pandas.read_html()函数。我面临的问题是第一列包含合并的单元格,而pandas正在改变值。
pandas dataframe的内容:
如您所见,第二列中的某些值已被读入第一列。当其中一列合并了单元格时,如何确保将值读入正确的列?
以下是我用来阅读文件的代码:
rawFileDir = 'C:/ftproot/Projects/Korea/Data/AL_Seg/Domestic'
rawFiles = os.listdir(rawFileDir)
for rawFile in rawFiles:
if not os.path.isfile(rawFile):
continue
xl = pandas.read_html(rawFile)