要从年度报告(10ks)中提取更多信息,我试图基于余弦相似度来比较公司。这项研究的步骤之一是单词的词干或词素化。这样做的原因是要获得单词的词根,以便当您没有不同的变体词时,它们的核心含义是相同的。对于词干分析器和lemmatizer,我使用了NLTK软件包中的SnowBall词干分析器和WordNetLemmatizer。
例如的词根:例如。词形化
walking -> walk walking-> walking
walked -> walk walked -> walked
or
owing -> owe owing -> owing
owed -> owe owed -> owed
问题如下:我应该对金融文本使用词干提取器还是词形匹配器?
我认为,词干分析器更适合此类研究。
免责声明:我知道在stackoverflow上讨论词干与词条化已经存在一个问题。但是,我希望对财务文本进行一些澄清,特别是在一般情况下。