我有一个价格表,其中包含csv格式的日期和时间:
Date Time o h l c v
0 2020-07-09 15:10:00 8 8 7.5 7.94 41
1 2020-07-09 15:00:00 7.61 8.24 7.61 8.24 10
2 2020-07-09 14:50:00 8.3 8.3 7.7 7.7 7
3 2020-07-09 14:40:00 8.72 8.72 8.3 8.3 7
4 2020-07-09 14:30:00 8.72 8.72 8.39 8.39 8
5 2020-07-09 14:20:00 8.35 8.6 8.3 8.6 6
6 2020-07-09 14:10:00 8.18 8.46 8.18 8.45 22
7 2020-07-09 14:00:00 8.5 8.5 8.5 8.5 1
ValueError:时间数据“ 0”与格式“%Y-%m-%d%H:%M:%S”不匹配
这是我从运行这些代码段中得到的错误。
data = bt.feeds.GenericCSVData(dataname='ticks2.csv',
params = (
('nullvalue', float('NaN')),
('dtformat', '%Y/%m/%d'),# %H:%M:%S
('tmformat', '%H:%M:%S'),
('datetime', 0),
('time', 1),
('open', 2),
('high', 3),
('low', 4),
('close', 5),
('volume', 6),
我尝试合并日期和时间列以解决此问题 但无济于事...因为错误保持不变。
df = pd.read_csv('ticks.csv', parse_dates=[['Date', 'Time']])
print(df)
del df["Unnamed: 0"]
答案 0 :(得分:1)
第一件事是您将索引作为CSV中的第一列(即0、1、2、3、4 ...),但是在第一行中没有此列的列名CSV,因此您需要在CSV的标题(第一行)中添加其名称,只需将其命名为“索引”,这样第一条修改的CSV行应类似于Index Date Time o h l c v
。
第二件事是,您看起来像在CSV作为单元格分隔符中有制表符,而不是逗号,因此您需要在read_csv中将其指定为sep = '\t'
,即pd.read_csv('test.csv', sep = '\t', parse_dates = [['Date', 'Time']])
。
下面是一个经过纠正的有效示例,我为sep = ','
进行了示例,因为StackOverflow从文本中删除了选项卡,但我无法显示它们。对于您的情况,只需将sep = ','
内的sep = '\t'
修改为read_csv(...)
。您可以在我的示例中看到,我的csv在第一csv行的开头包含添加的Index
。同样在示例的开头,我测试了csv文件写入块,因为您已经拥有文件,所以不需要此块。
要得出结论,您必须做两件事:
Index
加标签的第一行。sep = '\t'
中添加read_csv(...)
。# This file-writing block is not needed, it is to create example file
with open('test.csv', 'w', encoding = 'utf-8') as f:
f.write("""
Index,Date,Time,o,h,l,c,v
0,2020-07-09,15:10:00,8,8,7.5,7.94,41
1,2020-07-09,15:00:00,7.61,8.24,7.61,8.24,10
2,2020-07-09,14:50:00,8.3,8.3,7.7,7.7,7
3,2020-07-09,14:40:00,8.72,8.72,8.3,8.3,7
4,2020-07-09,14:30:00,8.72,8.72,8.39,8.39,8
5,2020-07-09,14:20:00,8.35,8.6,8.3,8.6,6
6,2020-07-09,14:10:00,8.18,8.46,8.18,8.45,22
7,2020-07-09,14:00:00,8.5,8.5,8.5,8.5,1
""")
# This code is needed to solve task
# Change to "sep = '\t'" for your case of tab-separated CSV
import pandas as pd
df = pd.read_csv('test.csv', sep = ',', parse_dates = [['Date', 'Time']])
print(df)
输出:
Date_Time Index o h l c v
0 2020-07-09 15:10:00 0 8.00 8.00 7.50 7.94 41
1 2020-07-09 15:00:00 1 7.61 8.24 7.61 8.24 10
2 2020-07-09 14:50:00 2 8.30 8.30 7.70 7.70 7
3 2020-07-09 14:40:00 3 8.72 8.72 8.30 8.30 7
4 2020-07-09 14:30:00 4 8.72 8.72 8.39 8.39 8
5 2020-07-09 14:20:00 5 8.35 8.60 8.30 8.60 6
6 2020-07-09 14:10:00 6 8.18 8.46 8.18 8.45 22
7 2020-07-09 14:00:00 7 8.50 8.50 8.50 8.50 1