我有来自Kaggle的泰坦尼克号火车数据集,我正试图在熊猫数据框中导入它。以下是数据集中的一些记录:
PassengerId,活了下来,Pclass,姓名,性别,年龄,SibSp,PARCH,票务,套餐,船舱,走上
2,1,1,“Cumings,Mrs。John Bradley(Florence Briggs Thayer)“,女,38,1,0,PC 17599,71.2833,C85,C
3,1,3,“Heikkinen,Miss.Laina”,女,26,0,0,STON / O2。 3101282,7.925,,S
我想将它导入到pandas数据框中,以便Name字段值中的逗号(包含在双引号中)不被视为分隔符,并且该列不会以该逗号分割。 例如 - 对于上面示例中的第二条记录,名称字段具有值 - “Heikkinen,Miss.Laina”被视为单个值,并且不会以 Heikkinen 和 Miss之间的逗号分隔。来拿
答案 0 :(得分:0)
来自https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html pandas文档:
quotechar:str(长度为1),可选
用于表示引用项目的开头和结尾的字符。引用的项目可以包括分隔符,它将被忽略。
引用:int或csv.QUOTE_ *实例,默认为0
每个csv.QUOTE_ *常量的控制字段引用行为。使用QUOTE_MINIMAL(0),QUOTE_ALL(1),QUOTE_NONNUMERIC(2)或QUOTE_NONE(3)之一。
doublequote:boolean,默认为True
当指定quotechar且引用不是QUOTE_NONE时,指明是否将两个连续的quotechar元素解释为一个字段作为单个quotechar元素。
所以我建议你在read_csv的调用中指定quotechar。