我有一个希伯来语文本文件,我想用Python 2.7对它进行标记化。但编码和解码总是存在问题。实际上我需要对其进行标记以构建 BagOfWords()
功能(例如,获取所有文本中出现的所有单词超过100个)。
结果是一个主要使用的希伯来语单词列表。
我试图解码文字:
text = text.decode("cp862")
但输出显示如下:
\u2229\u2557\u2510.......
我希望这个文件是希伯来语单词的列表,而不是ascii或utf-8 char。
感谢您的帮助。
谢谢
答案 0 :(得分:1)
如果源文本确实包含希伯来文本,则基于代码页的字符表示法转换为通用UNICODE将允许您构建语言语料库分析,<<<<<<<<<<<<<<<<<<<< ; 字>>内容与内容本身无关,但取决于UI环境。
作为一个例子,可以同时编写和显示希伯来文本,因为小部件可以正确处理正确的上下文(char(s)的可视化表示,外观顺序,流向):
aSequenceOfCHARs(ALEF,BET,MEM,NUN,AYIN,FINAL PE)显示为:
因此,您的主要关注点 - python中的语言语料库分析 - 可以与unicode文本元素一起使用,而不依赖于它们在表示层上的输出。