从.txt导入数据(其中分隔符/分隔符和十进制是逗号)到熊猫

时间:2019-10-01 15:48:32

标签: python-3.x pandas

我有一个包含字符串,浮点数和整数的文件。小数点是逗号,以及定界符/分隔符。浮标可以是“正常”的,也可以是学术的(例如1,92967e-009)。普通的空格前面有四个空格(0,797739)。

示例行: 2,男性,0,879876,0,120124,7,55166e-010,3,03629e-008,1,06476e-007,3,68805e-019,1

导入熊猫会导致奇怪的结果,因为熊猫无法区分定界符和小数,并添加了一些不存在的列。

我阅读了read_csv的手册,并使用了正则表达式进行了尝试,但无法解决问题。

我还尝试了以下方法: How to .read the 'file with "," (comma) as a separator, which separates decimal numbers separated by "," (comma)'? 与for循环结合使用,但对我不起作用。

import pandas as pd
import csv
import re

path = open("path\Cluster.txt", "r") #extra loading because of a long path with vowel mutation
LCA_data = csv.reader(path)
df = pd.read_csv(path, header=0, sep=',', decimal=',')
df.head()

我期望表格化的数据框,但是熊猫添加了更多的列,因为它在每个逗号上都分开了。

0 个答案:

没有答案