日期时间是否编码像热门编码这样的单热矢量或类似其他内容是否有意义

时间:2018-01-31 04:43:44

标签: python machine-learning deep-learning word2vec one-hot-encoding

我是机器学习和深度学习的新手。我想解决时间序列问题,它每秒都有数据。另外,我最近一直在研究word2vector和时间序列数据。有一天,我想出了一个想法,将日期时间等序列数据转换为单热编码?

    time
2017-11-01 00:00:01
2017-11-01 00:00:02
2017-11-01 00:00:03
2017-11-01 00:00:04
.
.
.

我的想法有一些限制,如下,

  • 学习尺寸过高(1天= 60 * 60 * 24 = 86400(s))
  • 无限时间 - 即使现在也会产生时间
  • 秒之间的差异太小而无法学习

我想让你确定我上面提到的有关限制的内容。另外,我希望您能给我一些想法,将时间序列数据发展成一个热门向量,用于机器学习和深度学习? +你对这个想法有什么看法?

1 个答案:

答案 0 :(得分:1)

不,每秒一次热编码没有意义。正如您所提到的,特征向量是高维的。更糟糕的是:特征向量非常稀疏。

相反,你可以:

  • 按天分组:一年365个功能。
  • 添加is_weekdayis_workdayis_saturdayis_morningis_afternoon等功能,这取决于您问题中的重要内容!
  • 也许您也可以在Unix时间添加一个功能,但请进行标准化(平均减法,除以预期的值范围)。