意大利Stemmer替代Snowball

时间:2019-08-21 13:12:24

标签: r nlp stemming

我正在尝试分析R中的意大利语文本。 正如您在文本分析中所做的那样,我已经消除了所有标点符号,特殊字符和意大利语停用词。 但是我在词梗方面遇到了一个问题:只有一个意大利词干(Snowball),但这不是很精确。

要进行茎提取,我使用了tm库,尤其是stemDocument函数,并且我还尝试使用了SnowballC库,两者都得到了相同的结果。

  stemDocument(content(myCorpus[[1]]),language = "italian")

问题在于所产生的词干不是非常精确。还有其他更精确的意大利词干吗? 还是有办法通过添加新术语来实现TM库中已经存在的词干?

1 个答案:

答案 0 :(得分:2)

您可以签出的另一种选择是此人提供的软件包,他提供了许多不同语言的软件包。这是Italian的链接。

这是否对您的情况有所帮助是另一个争论,但也可以通过corpus包来实现。如果您移至Dictionary Stemmer section,还将在其文档中提供一个示例示例(对于英语用例,对意大利语进行调整)。


另外,类似于上述方法,您还可以考虑使用Python库(例如NLTKSpacy中的词干提取器或词条生成器(如果您尚未考虑词条生成器,则值得考虑),并检查是否获得更好的结果。毕竟,它们只是包含根词与子词的映射的文件。下载它们,根据需要对文件进行微调,并通过自定义函数将其传递给您,以根据您的方便使用映射。