使用nltk分块阿拉伯语文本

时间:2013-05-08 08:48:04

标签: python nltk chunking

我有一个关于阿拉伯语文本分块的项目 我想知道是否可以使用NLTK提取阿拉伯文本的块NP,VP,PP以及如何使用阿拉伯语语料库。 请任何人帮助我!

1 个答案:

答案 0 :(得分:1)

它远非完美(主要是因为阿拉伯语的语言属性与英语的语言属性明显不同),但a computer science student developed an Arabic language analysis toolkit in 2011看起来很有希望。他开发了“由词性标注器和形态分析器组成的集成解决方案。该工具包经过古典阿拉伯语培训,并在现代标准阿拉伯语样本文本上进行测试。”我认为这个工具的局限在于训练集是经典的,而测试集是MSA。

这篇论文是一个很好的开始,因为它解决了现有工具及其相对成功(和缺点)。我也强烈推荐this 2010 paper,它看起来像是一个杰出的参考。它是also available as a book in print or electronic format

另外,作为个人笔记,我希望看到一位精通NLP的母语使用Google ta3reeb(以Java open source utility提供)来开发更好的工具和库。只是我的一些想法,我对阿拉伯语NLP的实际经验非常有限。有很多公司已经开发出应用阿拉伯语NLP原则的搜索解决方案,尽管他们的大部分工作都可能是专有的(例如,我知道Basis Technologyworked with this相当广泛;我我没有以任何方式与Basis有任何关系,也没有。)