Question

我的逗号分隔txt文件包含以下格式的数据（当然，还有更多的列和行）。

df=pd.read_csv("data.txt", thousands=r',')
df.head()

如您所见，一些数据包含数千个分隔符，我这样读：

ParserError: Error tokenizing data. C error: Expected 13 fields in line 102996, saw 14

这会显示错误消息

#EH Cache
hibernate.cache.use_second_level_cache=true
hibernate.cache.region.factory_class=org.hibernate.cache.ehcache.EhCacheRegionFactory
hibernate.cache.use_query_cache=true

我认为发生此错误是因为某些数据包含数千个分隔符。

有什么建议吗？

Answer 1

尝试一下

df=pd.read_csv("text.csv", sep=', ',header =None,names=['colA','colB','colC','colD','colE','colF'])

df.head()

它输出：

Out[25]: 
   colA colB        colC     colD       colE     colF
0  1977   PA  2017-08-07       55  New Firms    327.0
1  1978   NY  2017-08-07       45  New Firms  $30,127
2  1978   NY  2017-08-07  $10,000  New Firms    1,000

Answer 2

也许还有一个额外的sep参数：

df = pd.read_csv("data.txt", sep = ', ', header = None, thousands = ',')

Python读取逗号分隔的txt文件，具有数千个分隔符

2 个答案: