Question

我是数据挖掘领域的新手。我正在研究非常有趣的Data Minign问题。数据描述如下：

数据对时间敏感。项属性取决于时间因素及其类标签。我将每周数据分组为一个培训或测试记录的实例。每周，一些项目属性可能会随其流行度（即类别标签）而变化。

一些示例数据如下：

IsBestPicture,MovieID,YearOfRelease,WeekYear,IsBestDirector,IsBestActor,IsBestAc‌tress,NumberOfNominations,NumberOfAwards,..,Label
-------------------------------------------------
0_1,60000161,2000,1,9-00,0,0,0,0,0,0,0
0_1,60004480,2001,22,19-02,1,0,0,11,3,0,0
0_1,60000161,2000,5,13-00,0,0,0,0,0,0,1
0_1,60000161,2000,6,14-00,0,0,0,0,0,0,0
0_1,60000161,2000,11,19-00,0,0,0,0,0,0,1

我的研究顾问建议使用Naive Bayes算法，该算法可以调整随时间变化的动态数据。

我使用2000 - 2004年的数据作为2005年的培训测试。如果我在我的项目数据集中包含Week-Year属性，那么它将在Naive Bayes中导致0概率。在按时间顺序组织数据后，可以从我的数据集中省略此属性吗？

此外，当我阅读新的测试用例时，如何调整我的模型？因为新的测试用例可能会导致Class标签发生变化吗？

Answer 1

您能更深入地了解一下您的方法吗？例如，您使用的是R，SPSS，Python，SQL Server 2008R2还是RapidMiner 5.2？如果你可以包含一些非常小的（3-4行段）数据，这将有助于人们弄清楚如何解决这个问题。

了解您正在查看的内容的一个直接方法是执行随机森林/决策树和K-Means聚类，以确定数据中的常见分离点。您是否已经开始快速浏览数据的直方图，平均值和异常值？

热门项目建议 - 时间敏感数据 - 数据挖掘

1 个答案: