如何删除字符串

时间:2017-01-16 22:24:37

标签: python regex

我正在解析pdf文件,我将其内容转换为字符串,并且在单词内部出现了很多\ ***(*表示任何符号)。例如:

  交易,中间立场似乎是可行的\ xe2 \ x80 \ x94norms明确阐述,由相关专业协会的制裁支持

使用text.replace("\\***","")显然不起作用,所以我正在考虑使用re.sub()

我在语法(reg表达式)上遇到问题并且希望能够提供一些帮助。

2 个答案:

答案 0 :(得分:4)

如何回合text.decode("utf8") ......这就是我认为你真正想做的事情

或者你可以用

将它们剥离出来
text.decode("ascii","ignore") 

(在python 3中你可能需要使用codecs.decode(text,"ascii","ignore")(并非完全可靠))

答案 1 :(得分:0)

您可以使用toNumber function不过滤任何无ascii / utf8字符

^

结果将是

import re
text = re.sub(r'[^\x00-\x7F]', ' ', text)