如何根据语料库的相关性生成一包单词

时间:2016-02-26 17:01:34

标签: nlp tf-idf

据我所知,TF-IDF(术语频率 - 逆文档频率)是解决方案吗?但是请注意,TF-IDF的TF仅针对单个文档。我需要制作一包与整个语料库相关的单词。我做错了还是有替代方案?

1 个答案:

答案 0 :(得分:0)

如果您计算不同语料库上的IDF,您可以这样做。包含新闻专线文本的一般语料库可能是合适的。然后,您可以将自己的语料库视为单个文档来计算TF。您还需要一种策略,用于存在于语料库中但不存在于外部语料库中的单词,因为它们不具有IDF值。最后,您可以根据TF-IDF对语料库中的单词进行排名。