Question

下午好，

在我的问题Reading csv like file to pandas之后，我还有另一个问题更加棘手。

我试图阅读的excel spreasheet由tabulatiobn分隔，并且有一个带引号的列。我试图使用quotechar参数来避免意外的列，但它似乎不起作用，因为分隔符是一个正则表达式

如果有帮助，我的代码如下：

umm2017 = pd.read_csv（r'{0} \ DonneesIndisponibilitesProduction_2017.xls'.format（path_temp），sep = r“\ t”，encoding ='iso-8859-2'，quotechar =“'”） umm2017 = umm2017.drop（umm2017.index [len（umm2017） - 1]） umm2017.to_csv（r'{} \ umm_rte_2017.csv'.format（path_output），index ='False'）

我想用大熊猫阅读的excel就在这里

example

我正在尝试解析的文件可以在底部https://clients.rte-france.com/lang/fr/visiteurs/vie/prod/indisponibilites.jsp

找到编辑：下午花时间试图理解;因此，C引擎似乎不支持quotchar，这是我可以使用的唯一一个，因为我的文件使用正则表达式作为sep。我试图删除原始文件中的所有连字符，但它不起作用。

这是我得到的输出csv;一些额外的行弄乱了一些东西：

非常感谢

Answer 1

作为一种解决方法，为了避免pd.read_csv将长度超过一个字符的分隔符解释为正则引用并导致引用出现问题，您可以先将\t替换为另一个字符，然后将其提供给{ {1}}。

例如，使用链接中的2014年文件，pd.read_csv似乎有效：

制表分隔文件到pandas

1 个答案: