在Python中进行法语文本分析的最佳方法是什么?

时间:2019-05-28 08:03:22

标签: python natural-language-processing

我想对法语文本进行文本分析,以可视化这些文本之间的相似性,可能的类别取决于所使用的单词。 我需要您的帮助,因为我刚开始使用Python,并且我想知道使用法语进行文本分析的最佳方法,同时考虑到我的文本是法语?

是否有专门为法语文本设计的库?用途是清理数据,并进一步分析数据。

我已经可以了:

  • 清除:删除所有特殊字符,将每个单词都小写并取消停用词
  • 标签:法语单词不是最佳选择(经过测试的图书馆:StanfordPostagger,Tag.pos de NLTK)。
  • 进行词法化:法语单词(FrenchLefffLemmatizer,WordNetLemmatizer)不是最佳(-)
  • 踩踏:FrenchStemmer雪球

我无法使用法语单词:传递给单数,将动词传递给不定式...

1 个答案:

答案 0 :(得分:0)

Spacy库和Treetagger工具(可以通过treetaggerwrapper库使用)具有良好的法语支持。

使用spacy的示例:

import spacy
nlp_fr = spacy.load('fr_core_news_sm')
text = "J'ai mangé des pommes hier"
tokens = nlp_fr(text)
for token in tokens:
    print(token.lemma_)

打印:

je
avoir
manger
un
pomme
hier

Treetagger较难安装,但是this可以为您提供帮助,here是python包装程序的文档。