Question

我正在解析pdf文件，我将其内容转换为字符串，并且在单词内部出现了很多\ ***（*表示任何符号）。例如：

交易，中间立场似乎是可行的\ xe2 \ x80 \ x94norms明确阐述，由相关专业协会的制裁支持

使用text.replace("\\***","")显然不起作用，所以我正在考虑使用re.sub()。

我在语法（reg表达式）上遇到问题并且希望能够提供一些帮助。

Answer 1

如何回合text.decode("utf8") ......这就是我认为你真正想做的事情

或者你可以用

将它们剥离出来

text.decode("ascii","ignore")

（在python 3中你可能需要使用codecs.decode(text,"ascii","ignore")（并非完全可靠））

Answer 2

您可以使用toNumber function不过滤任何无ascii / utf8字符

结果将是

import re
text = re.sub(r'[^\x00-\x7F]', ' ', text)