我的逗号分隔txt文件包含以下格式的数据(当然,还有更多的列和行)。
df=pd.read_csv("data.txt", thousands=r',')
df.head()
如您所见,一些数据包含数千个分隔符,我这样读:
ParserError: Error tokenizing data. C error: Expected 13 fields in line 102996, saw 14
这会显示错误消息
#EH Cache
hibernate.cache.use_second_level_cache=true
hibernate.cache.region.factory_class=org.hibernate.cache.ehcache.EhCacheRegionFactory
hibernate.cache.use_query_cache=true
我认为发生此错误是因为某些数据包含数千个分隔符。
有什么建议吗?
答案 0 :(得分:2)
尝试一下
df=pd.read_csv("text.csv", sep=', ',header =None,names=['colA','colB','colC','colD','colE','colF'])
df.head()
它输出:
Out[25]:
colA colB colC colD colE colF
0 1977 PA 2017-08-07 55 New Firms 327.0
1 1978 NY 2017-08-07 45 New Firms $30,127
2 1978 NY 2017-08-07 $10,000 New Firms 1,000
答案 1 :(得分:0)
也许还有一个额外的sep
参数:
df = pd.read_csv("data.txt", sep = ', ', header = None, thousands = ',')