我有一个包含字符串,浮点数和整数的文件。小数点是逗号,以及定界符/分隔符。浮标可以是“正常”的,也可以是学术的(例如1,92967e-009)。普通的空格前面有四个空格(0,797739)。
示例行: 2,男性,0,879876,0,120124,7,55166e-010,3,03629e-008,1,06476e-007,3,68805e-019,1
导入熊猫会导致奇怪的结果,因为熊猫无法区分定界符和小数,并添加了一些不存在的列。
我阅读了read_csv的手册,并使用了正则表达式进行了尝试,但无法解决问题。
我还尝试了以下方法: How to .read the 'file with "," (comma) as a separator, which separates decimal numbers separated by "," (comma)'? 与for循环结合使用,但对我不起作用。
import pandas as pd
import csv
import re
path = open("path\Cluster.txt", "r") #extra loading because of a long path with vowel mutation
LCA_data = csv.reader(path)
df = pd.read_csv(path, header=0, sep=',', decimal=',')
df.head()
我期望表格化的数据框,但是熊猫添加了更多的列,因为它在每个逗号上都分开了。