Question

我有一个包含7行的csv文件，其中5行有7列，最后两行有2列。这些文件也是字符串，浮点数和NaN的混合。 e.g：

883825.00,373395.00,0.00,"20,080.84",2012500.00,#EANF#,121449.39
0.00,0.00,0.00,"38,849.10",0.00,#EANF#,0.00
0.00,0.00,0.00,"83,167.42",1640625.00,#EANF#,0.00
#EANF#,#EANF#,#EANF#,#EANF#,#EANF#,#EANF#,#EANF#
"-1,202,600.00",-0.00,#EANF#,2267168,0.00,#EANF#,"-173,710.66"
-125.60,#EANF#
"17,459.68",#EANF#.

我可以使用MATLAB读取此文件并进行处理。我可以用numpy做同样的事情吗？我尝试在这个论坛上寻找解决方案，但似乎没有任何效果。需要将字符串和NaN转换为float。

Answer 1

我不确定是否存在使用NumPy的解决方案，loadtxt和genfromtxt如果列数发生变化则分别引发错误和警告，因此您可能必须编写自己的方法

修改：稍微修改了以下内容，以反映DSM的评论。

您可以使用内置的csv模块：

import csv

arr = []

with open('test.txt', 'r') as fh:
    reader = csv.reader(fh)
    for row in reader:
        if row:
            arr.extend(row)

csv方法的优势在于它会删除换行符，如果您只是使用fileobj = open(...)和for line in fileobj读取文件，则情况并非如此。

此时你应该

>>> arr
['883825.00', '373395.00', '0.00', '20,080.84', '2012500.00', '#EANF#', '121449.
39', '0.00', '0.00', '0.00', '38,849.10', '0.00', '#EANF#', '0.00', '0.00', '0.0
0', '0.00', '83,167.42', '1640625.00', '#EANF#', '0.00', '#EANF#', '#EANF#', '#E
ANF#', '#EANF#', '#EANF#', '#EANF#', '#EANF#', '-1,202,600.00', '-0.00', '#EANF#
', '2267168', '0.00', '#EANF#', '-173,710.66', '-125.60', '#EANF#', '17,459.68',
 '#EANF#.']

然后，您必须转换为浮点数并将#EANF#值替换为numpy.NaN。我们还必须处理一些值中的逗号。使用

可以轻松处理逗号

float(str(float_string).replace(',', ''))

对于#EANF#值，我们可以检查项是否以此开头（不等于此，因为列表中的最后一项具有尾随.）。将这两个转换合并到一个函数convert中并使用列表解析进行包装：

import numpy

def convert(v):
    try:
        return float(v)
    except ValueError:
        if v.startswith('#EANF#'):
            return numpy.NaN
        else:
            return float(str(v).replace(',', ''))

arr = numpy.asarray([convert(a) for a in arr])

可以将函数convert推广为采用第二个可选参数，该参数定义哪些值应映射到numpy.NaN。

最终结果是

>>> arr
[883825.0, 373395.0, 0.0, 20080.84, 2012500.0, nan, 121449.39, 0.0, 0.0, 0.0, 38
849.1, 0.0, nan, 0.0, 0.0, 0.0, 0.0, 83167.42, 1640625.0, nan, 0.0, nan, nan, na
n, nan, nan, nan, nan, -1202600.0, -0.0, nan, 2267168.0, 0.0, nan, -173710.66, -
125.6, nan, 17459.68, nan]

注意：此答案假设您对一维列表感到满意。如果你想为结果提供不同的形状，你应该在问题中说出来。

将格式错误的csv文件转换为numpy数组

1 个答案: