从excel文件列中读取列表列表并将其存储在python列表中

时间:2017-08-24 05:16:49

标签: python excel python-3.x pandas xlsx

我知道这个问题的部分内容可能很简单,但我是初学者,并且非常感谢最简单的解决方案:我有一个excel(.xlsx文件),其中一个列的每个列都有一个列表数字列表(数字以空格分隔,每个列表的末尾都有一个空格)。因此,该列看起来像这样:

ColumnHeader  
[[[9 9 9 9 9 13 ][11 11 11 11 11 11 ][11 11 11 11 11 11 ][9 9 9 9 9 9 ]  
[[[9 9 9 9 9 9 ][9 9 9 9 9 9 ]]]  
[[[9 9 9 9 ][14 14 14 14 ][13 13 13 13 ]]]  

请注意每个列表的列表数量不同。另请注意,每个列表列表分别在它之前和之后都有一个额外的[和]。

我想要做的是理想地读取python中的整个xlsx文件(记住文件中还有其他列只有数字),将它存储在pandas数据帧中,但是将上面的列存储为列表清单。因此,如果我稍后打印此列,我会得到类似下面的内容(如果转换为列表,该系列将是列表列表:

ColumnHeader  
[[9,9,9,9,9,13],[11,11,11,11,11,11],[11,11,11,11,11,11],[9,9,9,9,9,9]]  
[[9,9,9,9,9,9],[9,9,9,9,9,9]]  
[[9,9,9,9],[14,14,14,14],[13,13,13,13]]  

如果我直接将xlsx文件读入pandas数据帧,它显然会将此列作为文本读取,这不是我想要的。

对此的任何帮助都将受到高度赞赏。

阿里

2 个答案:

答案 0 :(得分:1)

我建议您将有罪的列加载为字符串,然后使用this functionality将其转换为嵌套列表。定义一个接受字符串并返回列表的函数:

import pandas as pd
import ast
# Load some test data     
df = pd.DataFrame({'fake_list' : ['[[[9 9 9 9 9 13 ][11 11 11 11 11 11 ][11 11 11 11 11 11 ][9 9 9 9 9 9 ]]]',
                                '[[[9 9 9 9 9 9 ][9 9 9 9 9 9 ]]] ', 
                                '[[[9 9 9 9 ][14 14 14 14 ][13 13 13 13 ]]]'],
                   'a': [1,2,3],
                   'b': [4,5,6]})

def fix_list(s):
    s1 = s.strip() #strip white space at the edge of the string
    s1 = s1[1:-1]  # remove edge parenthesis 
    s1 = s1.replace(' ',',').replace('][', '],[')  # make some replacements so that it looks like a nested list
    return ast.literal_eval(s1) # transform string to a nested list

然后将该函数应用于您需要转换的列:

df['true_list'] = df['fake_list'].apply(fix_list)
print df.true_list[0]
# [[9, 9, 9, 9, 9, 13], [11, 11, 11, 11, 11, 11], [11, 11, 11, 11, 11, 11], [9, 9, 9, 9, 9, 9]]

或者,您可以使用converters从excel读取时转换有罪的列:

 df = pd.read_excel('file.xlsx', converters = {'fake_list':fix_list()} 

答案 1 :(得分:1)

只需使用内置的csv lib

,就可以不用熊猫就能做到这一点。
from csv import reader

# read csv file as a list of lists
with open('students.csv', 'r') as read_obj:
    # pass the file object to reader() to get the reader object
    csv_reader = reader(read_obj)
    # Pass reader object to list() to get a list of lists
    list_of_rows = list(csv_reader)
    print(list_of_rows)

如果要排除第一行,请使用.pop函数

list_of_rows.pop(0)

基于:https://thispointer.com/python-read-csv-into-a-list-of-lists-or-tuples-or-dictionaries-import-csv-to-list/