使用numpy.loadtxt时无法将字符串转换为float

时间:2018-04-26 20:04:02

标签: python python-3.x numpy machine-learning scikit-learn

代码:

import csv
import numpy
raw_data = open('C:\\Users\\train.csv', 'rt')
data = numpy.loadtxt(raw_data, delimiter=",")
print(data.shape)

以下是使用的样本数据

Time    Freq
8:00    91.1
8:03    91.1
8:06    91.1
8:09    91.1
8:12    91.1
8:15    91.1
8:18    91.1
8:21    91.1
8:24    91.1
8:27    91.1
8:30    91.1

Error:
ValueError: could not convert string to float: b'Time'

2 个答案:

答案 0 :(得分:2)

In [350]: txt ='''Time    Freq
     ...: 8:00    91.1
     ...: 8:03    91.1
     ...: 8:06    91.1
     ...: 8:09    91.1
     ...: 8:12    91.1
     ...: 8:15    91.1
     ...: 8:18    91.1
     ...: 8:21    91.1
     ...: 8:24    91.1
     ...: 8:27    91.1
     ...: 8:30    91.1
     ...: '''

作为结构化数组加载,使用第一行作为字段名称。

In [351]: data = np.genfromtxt(txt.splitlines(),names=True,dtype=None,encoding=N
     ...: one)
In [352]: data
Out[352]: 
array([('8:00', 91.1), ('8:03', 91.1), ('8:06', 91.1), ('8:09', 91.1),
       ('8:12', 91.1), ('8:15', 91.1), ('8:18', 91.1), ('8:21', 91.1),
       ('8:24', 91.1), ('8:27', 91.1), ('8:30', 91.1)],
      dtype=[('Time', '<U4'), ('Freq', '<f8')])
In [353]: data['Freq']
Out[353]: array([91.1, 91.1, 91.1, 91.1, 91.1, 91.1, 91.1, 91.1, 91.1, 91.1, 91.1])

请注意,第二列已作为数字加载,但第一列已作为字符串加载。

答案 1 :(得分:1)

默认情况下,numpy.loadtext要求文件中的所有内容都是数字。 Time不是数字。 8:00也不是数字。如果要对数据执行数值运算,则需要删除Time Freq标题,并将时间转换为数字。

如果您不需要进行任何类型的数值分析,可以将数据导入为字符串。 numpy.loadtxt(raw_data, delimiter=",", dtype='str')。有关详细信息,请参阅docs


或者,您可以使用genfromtxt