我是数据挖掘领域的新手。我正在研究非常有趣的Data Minign问题。数据描述如下:
数据对时间敏感。项属性取决于时间因素及其类标签。我将每周数据分组为一个培训或测试记录的实例。每周,一些项目属性可能会随其流行度(即类别标签)而变化。
一些示例数据如下:
IsBestPicture,MovieID,YearOfRelease,WeekYear,IsBestDirector,IsBestActor,IsBestActress,NumberOfNominations,NumberOfAwards,..,Label
-------------------------------------------------
0_1,60000161,2000,1,9-00,0,0,0,0,0,0,0
0_1,60004480,2001,22,19-02,1,0,0,11,3,0,0
0_1,60000161,2000,5,13-00,0,0,0,0,0,0,1
0_1,60000161,2000,6,14-00,0,0,0,0,0,0,0
0_1,60000161,2000,11,19-00,0,0,0,0,0,0,1
我的研究顾问建议使用Naive Bayes算法,该算法可以调整随时间变化的动态数据。
我使用2000 - 2004年的数据作为2005年的培训测试。如果我在我的项目数据集中包含Week-Year属性,那么它将在Naive Bayes中导致0概率。在按时间顺序组织数据后,可以从我的数据集中省略此属性吗?
此外,当我阅读新的测试用例时,如何调整我的模型?因为新的测试用例可能会导致Class标签发生变化吗?
答案 0 :(得分:0)
您能更深入地了解一下您的方法吗?例如,您使用的是R,SPSS,Python,SQL Server 2008R2还是RapidMiner 5.2?如果你可以包含一些非常小的(3-4行段)数据,这将有助于人们弄清楚如何解决这个问题。
了解您正在查看的内容的一个直接方法是执行随机森林/决策树和K-Means聚类,以确定数据中的常见分离点。您是否已经开始快速浏览数据的直方图,平均值和异常值?