应用错误收集

要从年度报告（10ks）中提取更多信息，我试图基于余弦相似度来比较公司。这项研究的步骤之一是单词的词干或词素化。这样做的原因是要获得单词的词根，以便当您没有不同的变体词时，它们的核心含义是相同的。对于词干分析器和lemmatizer，我使用了NLTK软件包中的SnowBall词干分析器和WordNetLemmatizer。

例如的词根：例如。词形化 walking -> walk walking-> walking walked -> walk walked -> walked or owing -> owe owing -> owing owed -> owe owed -> owed
问题如下：我应该对金融文本使用词干提取器还是词形匹配器？

我认为，词干分析器更适合此类研究。

免责声明：我知道在stackoverflow上讨论词干与词条化已经存在一个问题。但是，我希望对财务文本进行一些澄清，特别是在一般情况下。

python [NLTK]

0 个答案: