Question

我想对法语文本进行文本分析，以可视化这些文本之间的相似性，可能的类别取决于所使用的单词。我需要您的帮助，因为我刚开始使用Python，并且我想知道使用法语进行文本分析的最佳方法，同时考虑到我的文本是法语？

是否有专门为法语文本设计的库？用途是清理数据，并进一步分析数据。

我已经可以了：

清除：删除所有特殊字符，将每个单词都小写并取消停用词
标签：法语单词不是最佳选择（经过测试的图书馆：StanfordPostagger，Tag.pos de NLTK）。
进行词法化：法语单词（FrenchLefffLemmatizer，WordNetLemmatizer）不是最佳（-）
踩踏：FrenchStemmer雪球

我无法使用法语单词：传递给单数，将动词传递给不定式...

Answer 1

Spacy库和Treetagger工具（可以通过treetaggerwrapper库使用）具有良好的法语支持。

使用spacy的示例：

import spacy
nlp_fr = spacy.load('fr_core_news_sm')
text = "J'ai mangé des pommes hier"
tokens = nlp_fr(text)
for token in tokens:
    print(token.lemma_)

打印：

je
avoir
manger
un
pomme
hier

Treetagger较难安装，但是this可以为您提供帮助，here是python包装程序的文档。

在Python中进行法语文本分析的最佳方法是什么？

1 个答案: