Python中的希伯来语文本

时间:2014-10-07 04:51:04

标签: python

我有一个希伯来语文本文件,我想用Python 2.7对它进行标记化。但编码和解码总是存在问题。实际上我需要对其进行标记以构建 BagOfWords() 功能(例如,获取所有文本中出现的所有单词超过100个)。

结果是一个主要使用的希伯来语单词列表。

我试图解码文字:

text = text.decode("cp862")

但输出显示如下:

\u2229\u2557\u2510.......

我希望这个文件是希伯来语单词的列表,而不是ascii或utf-8 char。

感谢您的帮助。

谢谢

1 个答案:

答案 0 :(得分:1)

如果源文本确实包含希伯来文本,则基于代码页的字符表示法转换为通用UNICODE将允许您构建语言语料库分析,<<<<<<<<<<<<<<<<<<<< ; >>内容与内容本身无关,但取决于UI环境。

作为一个例子,可以同时编写和显示希伯来文本,因为小部件可以正确处理正确的上下文(char(s)的可视化表示,外观顺序,流向):

  

aSequenceOfCHARs(ALEF,BET,MEM,NUN,AYIN,FINAL PE)显示为:

אבמנעף

因此,您的主要关注点 - python中的语言语料库分析 - 可以与unicode文本元素一起使用,而不依赖于它们在表示层上的输出。