如何从时间序列数据中提取有用的功能(例如,用户和论坛中的日常活动)

时间:2017-03-04 21:07:39

标签: python machine-learning scikit-learn time-series feature-extraction

我有关于用户的数据&#39;在论坛中访问和发布为期一周的时间,此数据包含活动的时间戳。根据这个论坛数据,我试图预测用户&#39;另一种行为(让我们说X行为)。回归模型的初步结果显示用户&#39;论坛活动似乎与他们的X行为相关联。除了这些累积功能: avg_visits_per_day total_posts_whole_week ,我还有每天的功能(0<a<8): {a} _visits 和的 {A} _posts 即可。

因此,我总共有16个特征,使用这16个特征构建的回归模型给出了有希望的结果。因此,如果我能够生成更多功能,那将更有意义。但是,我不知道这些时间序列数据是否有任何有用的特征提取策略。我正在使用sklearn,但没有看到用于此目的的方法。有什么想法或建议吗?

1 个答案:

答案 0 :(得分:3)

有很多选择,很难说出哪些选项对于预测未知&#34; x行为更有用。&#34;。但是,您可以:

  1. 手动创建表示原始数据中明显可用的信息的功能,但根本不存在于当前功能集中。例如,如果您不仅记录了日期,还记录了活动记录的时间 - 您可以在每天内构建第一个/最后一个/平均访问时间的其他功能(可能转换为分类早晨/白天/傍晚/夜晚),平均时间之间的访问等。可能星期几的信息也很有用。

  2. 手动创建现有设置的相关功能:例如,每天的访问/帖子比率,自上次发布以来的天数,没有访问的最长时间等等

  3. 如果可用,请使用其他信息:用户的浏览器,操作系统,屏幕分辨率,帖子长度,他/她的帖子中出现的关键字,它所属的子论坛,新帖子或后续信息起来...... - 再一次,事先很难说出什么是相关的。

  4. 按照tsfresh或(自动化程度较低)hctsa

  5. 等程序包自动提取功能