熊猫read_csv如何精确解析正则表达式?

时间:2018-11-20 01:48:57

标签: python regex pandas

我有一个具有以下结构的CSV文件:

word1|word2|word3,word4,0.20,0.20,0.11,0.54,2.70,0.07,1.75

也就是说,第一行字符串(有些大写,有些没有大写)用“ |”和“ ,”(这表示关联模式的差异)分开,然后是7每个数字之间用','分隔。

n.b。该数据框具有数百万行。我试图按如下方式加载它:

pd.read_csv('pattern_association.csv',sep= ',(?!\D)', engine='python',chunksize=10000)

我按照这里的建议使用了一个正则表达式,该表达式旨在捕获一个数字后的每一列,但是我需要一个既选择第一列作为整个字符串,又忽略字符串之间的逗号,然后解析出一个正则表达式由数字组成的7列。

我如何让熊猫来解析它?

我总是得到错误。

  

错误可能是由于当   使用了多字符定界符。

我尝试了许多变体,而我正在使用的正则表达式似乎不在熊猫玩具表达的上下文中起作用。

感谢任何提示。

0 个答案:

没有答案