我正在使用pd.read_excel读取excel文件,并且在该列中,很少有行包含引号(“)和隐藏的新行。我想在进行进一步转换之前将它们都删除。示例字符串如下所示
col1 col2 col3
IC201829 100234 "Valuation of GF , Francis Street D8. I number: 106698 "
我正在使用以下代码删除引号和隐藏的新行(在D8和I号之间),
df['col3'] = df['col3'].str.replace('"','')
df['col3'] = df['col3'].replace(r'\\n',' ', regex=True)
任何建议都值得赞赏。谢谢
答案 0 :(得分:1)
您可以使用单行replace()
来做到这一点,
import pandas as pd
str = '''"Valuation of "GF , Francis Street D8.\nI number: 106698"'''
df = pd.DataFrame({'Col3':[str]})
print (df)
df = df.replace('\n',' ', regex=True).replace('"', '',regex=True)
print (df)
答案 1 :(得分:0)
嵌入此语法可删除下一行,回车符以及双撇号。
df['col3'].str.replace(chr(10), "").str.replace(chr(13), "").str.replace(chr(34), "")
有关更多可用选项,请对照您需要替换的符号检查ASCII table中的十进制值。