我正在尝试分析R中的意大利语文本。 正如您在文本分析中所做的那样,我已经消除了所有标点符号,特殊字符和意大利语停用词。 但是我在词梗方面遇到了一个问题:只有一个意大利词干(Snowball),但这不是很精确。
要进行茎提取,我使用了tm
库,尤其是stemDocument
函数,并且我还尝试使用了SnowballC
库,两者都得到了相同的结果。
stemDocument(content(myCorpus[[1]]),language = "italian")
问题在于所产生的词干不是非常精确。还有其他更精确的意大利词干吗? 还是有办法通过添加新术语来实现TM库中已经存在的词干?
答案 0 :(得分:2)
您可以签出的另一种选择是此人提供的软件包,他提供了许多不同语言的软件包。这是Italian的链接。
这是否对您的情况有所帮助是另一个争论,但也可以通过corpus包来实现。如果您移至Dictionary Stemmer section,还将在其文档中提供一个示例示例(对于英语用例,对意大利语进行调整)。