应用错误收集

我删除了下面的链接，我想处理文本以便使用Python进行进一步分析。有争议的部分是“kwa vimada wake”。我想最终得到的文本对应于它打算显示的方式（并在我的浏览器上显示），如“kwa vimada wake”。但是，“vimada”周围有隐藏的字符，如果您复制文本并粘贴到Notepad ++等程序中，则可以看到这些字符。这些混乱我的标记化和NLP处理（例如POS标记器无法识别单词）并且似乎不能在我的脚本和其他程序之间保持一致（在使用机器学习然后在我的脚本中加载结果之后，我最终与vimadaÃ，它与vimada 无法匹配。）

网页似乎使用UTF-8编码，我的文件以UTF-8编码保存。如果我能解决这个问题并消除任何奇怪/隐藏的字符，我就不会对文件之间的一致性或将其用作NLP工具的输入有任何问题。

我的脚本正在使用＃ - - 编码：utf-8 - -

我更愿意使用我已经下载的文本，因为对网站的安全性更改已经使重新抓取它不切实际。我的数据库保存为“kwaâvimadaâwake”。开始/结束字符在Notepad ++中显示为三个字符：[[PAD] [SOS]和[[] [PAD] [SGCI]。

我想删除unicode空格/隐藏字符，并将标点符号的所有变体（如撇号，引号，连字符等）转换为ASCII等效字符。我更喜欢按原样保留重音字符。但是，并非所有重音字符当前都被正确解释。有些编码不正确，有些在网站上被更改，大概是因为软件更改而显示为像é这样的HTML代码。因此，简单删除一类字符将无法正确清理数据。我正在使用python 2.7。

http://www.jamiiforums.com/threads/rais-dhaifu-ccm-uchaguzi-2015.459292/#post-6461865

处理编码不一致/清除网页中的隐藏字符

0 个答案: