下午好,
在我的问题Reading csv like file to pandas之后,我还有另一个问题更加棘手。
我试图阅读的excel spreasheet由tabulatiobn分隔,并且有一个带引号的列。我试图使用quotechar参数来避免意外的列,但它似乎不起作用,因为分隔符是一个正则表达式
如果有帮助,我的代码如下:
umm2017 = pd.read_csv(r'{0} \ DonneesIndisponibilitesProduction_2017.xls'.format(path_temp),sep = r“\ t”,encoding ='iso-8859-2',quotechar =“'”) umm2017 = umm2017.drop(umm2017.index [len(umm2017) - 1]) umm2017.to_csv(r'{} \ umm_rte_2017.csv'.format(path_output),index ='False')
我想用大熊猫阅读的excel就在这里
我正在尝试解析的文件可以在底部https://clients.rte-france.com/lang/fr/visiteurs/vie/prod/indisponibilites.jsp
找到 编辑:下午花时间试图理解;因此,C引擎似乎不支持quotchar,这是我可以使用的唯一一个,因为我的文件使用正则表达式作为sep。我试图删除原始文件中的所有连字符,但它不起作用。非常感谢
答案 0 :(得分:0)
作为一种解决方法,为了避免pd.read_csv
将长度超过一个字符的分隔符解释为正则引用并导致引用出现问题,您可以先将\t
替换为另一个字符,然后将其提供给{ {1}}。
例如,使用链接中的2014年文件,pd.read_csv
似乎有效:
;