熊猫无法正确读取csv

时间:2019-07-02 16:20:33

标签: python pandas csv tensorflow keras

我是熊猫和喀拉拉邦的新手,我正在尝试建立一个网络来生成单词嵌入。我正在关注这个guide,试图使其适应我的特定数据集。我应该从dataset(DBLP-ACM,可在此处下载)中选择一些列以进行进一步的文字说明,但熊猫无法按预期工作。

我已经尝试使用与上面链接的指南相同的语法,但是pandas将每一列都放在一个大列中(名称很奇怪:['id,“ title”,“ authors”,“ venue”,“年”;;;;;'])。不用说,很多行都显示

之类的错误。

line 393: expected 7 fields, saw 11

我也尝试了其他解决方案,例如

quoting = csv.QUOTE_NONE

engine = "python"

,但没有按预期工作。基本上,我不理解为什么该数据集看起来格式错误(因为使用csv查看器打开它看起来可以),以及如何使用pandas正确读取它,以将其提交给程序的下一部分。

编辑:正如我在评论中指出的那样,我在分割数据集(用于训练和测试)时做错了什么,并且在此过程中格式不正确。仅供参考,我只是使用了在线csv分割器。公认的解决方案对于原始数据集而言是完美的。

1 个答案:

答案 0 :(得分:2)

df = pd.read_csv("DBLP2.csv", sep=",", quotechar="\"", encoding="latin_1")

这对我有用。您尚未提供任何示例代码,我也不知道为什么它对您不起作用。