我正在解析pdf文件,我将其内容转换为字符串,并且在单词内部出现了很多\ ***(*表示任何符号)。例如:
交易,中间立场似乎是可行的\ xe2 \ x80 \ x94norms明确阐述,由相关专业协会的制裁支持
使用text.replace("\\***","")
显然不起作用,所以我正在考虑使用re.sub()
。
我在语法(reg表达式)上遇到问题并且希望能够提供一些帮助。
答案 0 :(得分:4)
如何回合text.decode("utf8")
......这就是我认为你真正想做的事情
或者你可以用
将它们剥离出来text.decode("ascii","ignore")
(在python 3中你可能需要使用codecs.decode(text,"ascii","ignore")
(并非完全可靠))
答案 1 :(得分:0)
您可以使用toNumber function
不过滤任何无ascii / utf8字符
^
结果将是
import re
text = re.sub(r'[^\x00-\x7F]', ' ', text)