Pandas - 读取CSV文件,其中字段内容分组在不同的单元格中

时间:2018-01-24 17:12:52

标签: python pandas dataframe jupyter-notebook

我正在尝试将CS​​V导入Jupyter笔记本以分析数据。

由于字段由' |'分隔。我使用以下内容导入数据:

[960446.13, array([   76.92639923,   127.70278168,  1854.09997559,   838.57220459], dtype=float32), None]

正确导入标头,但数据不正确。第一列中有一组字段(仍然以import pandas as pd pd.read_csv('/filename.csv', sep='|') 字符分隔。)如果我在Excel中打开CSV文件,我会看到所有列名都在第一个单元格中,并以{{1}分隔},但数据不同。第一个单元格中有一组字段具有相同的分隔符,然后是第二个字段中的一组字段,等等。

基本上它看起来像这样:

|

我想这可以通过使用read_csv的不同选项来解决。

1 个答案:

答案 0 :(得分:0)

pandas.read_csv()

中有很多选项

正如评论所指出的,其根本原因通常是一个"时髦的角色"。在您的情况下,它是一个文本限定的逗号。其他时候,用户可能会遇到导致错误输出的non-breaking space,另一个特殊的ASCII符号或simply Excel displaying the character as a number。当您使用文本限定符分隔文件时,可以在Excel中解决问题:

Data Tab -> Text to Columns -> Delimited -> Set Text Qualifier。见下文: enter image description here

要在熊猫中解决此问题,您可以尝试pd.read_csv('/filename.csv', quotechar='"', sep='|')。根据您的评论,quoutechar=sep=之前发布是很重要的。或者,您可以使用delimiter=代替sep。就像docs delimiter一样:

  

sep的替代参数名称。