我正在研究一个实用的机器学习问题作为练习。我只需要帮助制定我的问题。
我有一本着名的老作家的20本书的文字。如果属于同一作者,还有5本书在历史上一直存在争议。
我正在考虑表达此问题的最佳方式。我正在考虑使用一个单词的方法来找到作者使用的最重要的单词。
我应该将其视为朴素贝叶斯(垃圾邮件/火腿)问题,还是应该使用KNN分类(作者/非作者)来检测每个文档的类别。还有另一种方法吗?
答案 0 :(得分:0)
我认为Naive Bayes可以为您提供见解。还有一种方法是,找出将这些书分开的功能
1.文字的复杂性,一些作家易于理解和使用常用词,我暗示IDF(逆文档频率)
有些词在他的时代甚至可能不存在,如“自拍”,“移动”等。
尝试找到很多类似的功能,并且还可以训练判别分类器。