我正在尝试使用gensim库。我的目标很简单。我想在德语文本上使用gensim提供的关键字提取。不幸的是,我很难过。
Gensim内置了关键字提取功能,它是基于TextRank构建的。虽然结果在英语文本上看起来不错,但似乎不适用于德语。我通过pypi简单安装了gensim并开箱即用。好吧,此类AI产品通常由模型驱动。我的猜测是gensim带有英语模型。 github page上提供了德语的word2vec模型。
但是在这里,我很困惑,我找不到gensim的摘要模块(该模块提供我正在寻找的keywords function)如何与外部模型一起工作的方式。
所以基本问题是,如何加载德语模型并从德语文本中获取关键字?
谢谢
答案 0 :(得分:0)
gensim
文档或original TextRank paper(从2004年开始)中没有任何内容,表明该算法需要Word2Vec模型作为输入。 (Word2Vec于2013年左右首次发布。)它仅需带有单词标记。
请参阅gensim
随附的教程笔记本中的用法示例:
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/summarization_tutorial.ipynb
由于复合词的重要性不同,我不确定相同的算法在德语文本上是否也能正常工作。 (在我看来,TextRank在英语方面也不是很令人印象深刻。)您必须检查文献以查看它是否仍能提供令人尊敬的结果。 (也许某种额外的词干/词内标记/规范化会有所帮助。)