Question

我从Scopus得到了一个用逗号分隔的csv文件。文件的每一行都有这样的结构：

"A, B, C,D","1111;2222;3333;4444;","A,B,C",1111,"ABCDE","XYZ",,,"338","347",,,"11.10000/111-2-642-35236-2_34",Conference Paper,,Scopus,2-s2.0-1243213123

尽管它是逗号分隔的，但是在某些字段（如第一个字段）中，当我使用pandas.DataFrame.from_csv时，内部的逗号会引起错误，因为大熊猫无法区分分隔符和非分隔符。有什么方法可以将这样的csv文件加载到数据框中？

Answer 1

如果分隔符是逗号，则：

df= pd.read_csv("file.csv", delimiter = ',' , header = None)

空值被视为NaN

         0                     1      2     3         ...                        13  14      15                 16
0  A, B, C,D  1111;2222;3333;4444;  A,B,C  1111        ...          Conference Paper NaN  Scopus  2-s2.0-1243213123

熊猫将检测逗号作为分隔符，而不是-分隔符，例如字符串“ A，B，C，D”

将逗号分隔的文件加载到数据框中

1 个答案: