Question

我正在尝试分析R中的意大利语文本。正如您在文本分析中所做的那样，我已经消除了所有标点符号，特殊字符和意大利语停用词。但是我在词梗方面遇到了一个问题：只有一个意大利词干（Snowball），但这不是很精确。

要进行茎提取，我使用了tm库，尤其是stemDocument函数，并且我还尝试使用了SnowballC库，两者都得到了相同的结果。

  stemDocument(content(myCorpus[[1]]),language = "italian")

问题在于所产生的词干不是非常精确。还有其他更精确的意大利词干吗？还是有办法通过添加新术语来实现TM库中已经存在的词干？

Answer 1

您可以签出的另一种选择是此人提供的软件包，他提供了许多不同语言的软件包。这是Italian的链接。

这是否对您的情况有所帮助是另一个争论，但也可以通过corpus包来实现。如果您移至Dictionary Stemmer section，还将在其文档中提供一个示例示例（对于英语用例，对意大利语进行调整）。

另外，类似于上述方法，您还可以考虑使用Python库（例如NLTK或Spacy中的词干提取器或词条生成器（如果您尚未考虑词条生成器，则值得考虑），并检查是否获得更好的结果。毕竟，它们只是包含根词与子词的映射的文件。下载它们，根据需要对文件进行微调，并通过自定义函数将其传递给您，以根据您的方便使用映射。

意大利Stemmer替代Snowball

1 个答案: