处理编码不一致/清除网页中的隐藏字符

时间:2016-05-20 19:31:56

标签: python unicode encoding web-scraping hidden-characters

我删除了下面的链接,我想处理文本以便使用Python进行进一步分析。有争议的部分是“kwa vimada wake”。我想最终得到的文本对应于它打算显示的方式(并在我的浏览器上显示),如“kwa vimada wake”。但是,“vimada”周围有隐藏的字符,如果您复制文本并粘贴到Notepad ++等程序中,则可以看到这些字符。这些混乱我的标记化和NLP处理(例如POS标记器无法识别单词)并且似乎不能在我的脚本和其他程序之间保持一致(在使用机器学习然后在我的脚本中加载结果之后,我最终与vimadaÃ,它与vimada 无法匹配。)

网页似乎使用UTF-8编码,我的文件以UTF-8编码保存。如果我能解决这个问题并消除任何奇怪/隐藏的字符,我就不会对文件之间的一致性或将其用作NLP工具的输入有任何问题。

我的脚本正在使用# - - 编码:utf-8 - -

我更愿意使用我已经下载的文本,因为对网站的安全性更改已经使重新抓取它不切实际。我的数据库保存为“kwaâvimadaâwake”。开始/结束字符在Notepad ++中显示为三个字符:[[PAD] [SOS]和[[] [PAD] [SGCI]。

我想删除unicode空格/隐藏字符,并将标点符号的所有变体(如撇号,引号,连字符等)转换为ASCII等效字符。我更喜欢按原样保留重音字符。但是,并非所有重音字符当前都被正确解释。有些编码不正确,有些在网站上被更改,大概是因为软件更改而显示为像é这样的HTML代码。因此,简单删除一类字符将无法正确清理数据。我正在使用python 2.7。

http://www.jamiiforums.com/threads/rais-dhaifu-ccm-uchaguzi-2015.459292/#post-6461865

0 个答案:

没有答案