我正在尝试将CSV导入Jupyter笔记本以分析数据。
由于字段由' |'分隔。我使用以下内容导入数据:
[960446.13, array([ 76.92639923, 127.70278168, 1854.09997559, 838.57220459], dtype=float32), None]
正确导入标头,但数据不正确。第一列中有一组字段(仍然以import pandas as pd
pd.read_csv('/filename.csv', sep='|')
字符分隔。)如果我在Excel中打开CSV文件,我会看到所有列名都在第一个单元格中,并以{{1}分隔},但数据不同。第一个单元格中有一组字段具有相同的分隔符,然后是第二个字段中的一组字段,等等。
基本上它看起来像这样:
|
我想这可以通过使用read_csv的不同选项来解决。
答案 0 :(得分:0)
正如评论所指出的,其根本原因通常是一个"时髦的角色"。在您的情况下,它是一个文本限定的逗号。其他时候,用户可能会遇到导致错误输出的non-breaking space,另一个特殊的ASCII符号或simply Excel displaying the character as a number。当您使用文本限定符分隔文件时,可以在Excel中解决问题:
Data Tab -> Text to Columns -> Delimited -> Set Text Qualifier
。见下文:
要在熊猫中解决此问题,您可以尝试pd.read_csv('/filename.csv', quotechar='"', sep='|')
。根据您的评论,quoutechar=
在sep=
之前发布是很重要的。或者,您可以使用delimiter=
代替sep
。就像docs delimiter一样:
sep的替代参数名称。