我一直在尝试使用用户的数据构建预测模型。模型的输入是文档的元数据(发布日期,标题等),文档标签是用户的偏好(喜欢/不喜欢)。我想问一些我遇到的问题,希望得到一些答案:
是否有可能输入ML算法,例如逻辑回归在数字和单词方面是混合的,以及如何做到这一点,如:
input = [18,23,1,0,'cryptography'] with label = ['Like']
我们也可以使用矢量(代表一个单词,使用tfidf等)作为输入要素(例如50维向量)吗?
感谢您的时间。
答案 0 :(得分:1)
您需要对较大的类进行欠采样(采用较小的随机样本以匹配较小类的大小),对较小的类(引导样本)进行过采样,或使用支持不平衡的算法数据 - 为此您需要阅读文档。
您需要将单词转换为单词向量。列是语料库中的所有唯一单词。行是文件。单元格值是以下之一:文档中是否出现单词,出现的次数,出现的相对频率或TFIDF得分。然后,您可以将这些列与其他非单词列一起使用。
现在你可能有更多列而不是行,这意味着你将获得基于矩阵算法的奇点,在这种情况下你需要像SVM或Naive Bayes这样的东西。