Devanagaric文本处理(NLP)从哪里开始

时间:2017-02-15 05:48:56

标签: nlp text-processing devanagari

我是Devnagaric NLP的新手,是否有任何团体或资源可以帮助我开始使用Devnagaric语言(主要是尼泊尔语或类似印地语)的NLP。我希望能够为Devanagaric开发字体并且还可以进行一些字体处理应用程序。如果有人(在这个领域工作),可以给我一些建议,那么它将是非常值得赞赏的。 提前致谢

2 个答案:

答案 0 :(得分:2)

  

我是Devnagaric NLP的新手,是否有任何团体或资源可以帮助我开始使用Devnagaric语言(主要是尼泊尔语或类似印地语)的NLP

您可以使用fasttext [https://fasttext.cc/docs/en/pretrained-vectors.html#content]给出的嵌入,并使用一些深度学习RNN模型(如LSTM)进行文本分类,情感分析。

您可以在此处[http://ltrc.iiit.ac.in/ner-ssea-08/index.cgi?topic=5]

找到命名实体重新定义的一些数据集

对于处理印度语言,您可以在此处参考[https://github.com/anoopkunchukuttan/indic_nlp_library]

Nltk支持印度语言,用于pos标记和nlp相关任务,你可以参考这里[http://www.nltk.org/_modules/nltk/corpus/reader/indian.html]

答案 1 :(得分:0)

  

是否有任何团体或资源可以帮助我开始使用Devnagaric语言的NLP?

Madan Puraskar Pustakalaya下的Bhasa Sanchar project已经开发了一个尼泊尔语料库。您可以通过上述链接中提供的联系方式申请非商业用途的尼泊尔语料库。

Python的NLTK有印地语语料库。您可以使用

导入它
from nltk.corpus import indian

为了深入了解基于Devnagari的NLP,我建议你阅读研究论文.Nepali是一种资源不足的语言;还有很多工作要做,而且可能很难获得同样的内容。

你应该研究语言检测,文本分类,情感分析等(最好是基于语料库中的POS标记库)来掌握基础知识。

问题的第二部分

我很确定字体开发不属于自然语言处理领域。你的意思是什么吗?