因此,我正在阅读本文以实现TF-IDF https://towardsdatascience.com/tfidf-for-piece-of-text-in-python-43feccaa74f8。
在处理完文本并计算了TF,IDF和TF-IDF之后,我将得到一个字典,类似于
{'TFIDF_score': 0.0368605, 'doc_id': 1, 'key:' 'if'}
对于我传递的文字中的每个单词。
我的问题是:为此实现和计算查询的最佳方法是什么?假设我的查询是'two'
。其TFIDF_score
是0.9987384
。我应该为查询创建一个向量,并计算范数并根据查询和doc_id(dot_prod(query, doc_id)
)计算点积吗?
感谢您的帮助。我很感激