从文本中删除所有无效字符(例如\ uf0b7)

时间:2019-05-28 08:08:15

标签: python python-3.x string nlp data-cleaning

我目前有几个文本,其中有时包含字符“无效字符”,例如\ uf0b7或\ uf077。我没有办法知道特定文本可能包含哪些无效字符代码,我想知道是否有一种方法可以确保清除所有类型的“无效字符”的字符串,因为稍后会有一个过程(取决于第三方程序包)无法接收包含它的字符串。

我曾尝试寻找解决方案,但我得到的只是关于人们要删除的常规字符(例如'^%$&*')的答案,这些字符被归类为无效字符,但是我想删除/替换所有形式的实际字符“无效字符”

2 个答案:

答案 0 :(得分:0)

Python库编解码器可能会有所帮助。在这里查看文档:{​​{3}}

在我的用例中,我正在对具有非ASCII文本的文档进行一些分析。对我来说,忽略无效字符是可以接受的。我用以下行打开了文件,并能够解析语料库。

for filename in os.listdir(ROOT_DIR):
    with codecs.open(os.path.join(ROOT_DIR, filename), encoding = 'UTF8', errors ='replace' ) as f:

答案 1 :(得分:0)

我遇到了类似的问题。 It turns out 私人使用区域字符位于 Co general category 中,由 category() 中的 unicodedata 返回。

我解决了我的问题如下:

import unicodedata

def is_pua(c):
    return unicodedata.category(c) == 'Co'

content = "This\uf0b7 is a \uf0b7string \uf0c7with private \uf0b7use are\uf0a7as blocks\uf0d7." 

"".join([char for char in content if not is_pua(char)])

输出:

'This is a string with private use areas blocks.'