我从Scopus得到了一个用逗号分隔的csv文件。文件的每一行都有这样的结构:
"A, B, C,D","1111;2222;3333;4444;","A,B,C",1111,"ABCDE","XYZ",,,"338","347",,,"11.10000/111-2-642-35236-2_34",Conference Paper,,Scopus,2-s2.0-1243213123
尽管它是逗号分隔的,但是在某些字段(如第一个字段)中,当我使用pandas.DataFrame.from_csv
时,内部的逗号会引起错误,因为大熊猫无法区分分隔符和非分隔符。有什么方法可以将这样的csv文件加载到数据框中?
答案 0 :(得分:0)
如果分隔符是逗号,则:
df= pd.read_csv("file.csv", delimiter = ',' , header = None)
空值被视为NaN
0 1 2 3 ... 13 14 15 16
0 A, B, C,D 1111;2222;3333;4444; A,B,C 1111 ... Conference Paper NaN Scopus 2-s2.0-1243213123
熊猫将检测逗号作为分隔符,而不是-分隔符,例如字符串“ A,B,C,D”