制表分隔文件到pandas

时间:2017-05-29 12:21:48

标签: regex csv pandas

下午好,

在我的问题Reading csv like file to pandas之后,我还有另一个问题更加棘手。

我试图阅读的excel spreasheet由tabulatiobn分隔,并且有一个带引号的列。我试图使用quotechar参数来避免意外的列,但它似乎不起作用,因为分隔符是一个正则表达式

如果有帮助,我的代码如下:

umm2017 = pd.read_csv(r'{0} \ DonneesIndisponibilitesProduction_2017.xls'.format(path_temp),sep = r“\ t”,encoding ='iso-8859-2',quotechar =“'”) umm2017 = umm2017.drop(umm2017.index [len(umm2017) - 1]) umm2017.to_csv(r'{} \ umm_rte_2017.csv'.format(path_output),index ='False')

我想用大熊猫阅读的excel就在这里

example

我正在尝试解析的文件可以在底部https://clients.rte-france.com/lang/fr/visiteurs/vie/prod/indisponibilites.jsp

找到 编辑:下午花时间试图理解;因此,C引擎似乎不支持quotchar,这是我可以使用的唯一一个,因为我的文件使用正则表达式作为sep。我试图删除原始文件中的所有连字符,但它不起作用。

这是我得到的输出csv;一些额外的行弄乱了一些东西: enter image description here

非常感谢

1 个答案:

答案 0 :(得分:0)

作为一种解决方法,为了避免pd.read_csv将长度超过一个字符的分隔符解释为正则引用并导致引用出现问题,您可以先将\t替换为另一个字符,然后将其提供给{ {1}}。

例如,使用链接中的2014年文件,pd.read_csv似乎有效:

;