我有一个csv数据集,其中有2列“文本”,“名称”。
“文字”列包含新闻文章。
“名称”列包含从相应文本中提取的名称。
我必须在此数据集上训练模型,数据集包含4000多个独特新闻,其中,一旦训练和验证了模型,用户就应该能够传递任何文本,并且应该获取正确的名称。
我应该使用和实施哪种技术。请提出建议。 预先感谢。
答案 0 :(得分:1)
听起来您正在寻找通过关键字搜索商品。在基本情况下,您可以使用词包方法,在文本字段中标记单词,并相应地索引每个文档。
然后可以通过某种度量(例如余弦相似度)来计算每个文档的相关性。
您可以在此处使用创世纪库找到示例:https://radimrehurek.com/gensim/tut3.html 这很基本,但是请注意,它确实使用了 LSI 。