我有一个大数据集,其中包含以下形式的条目:
user_id,measurement_date,value1,value2,..
出现的挑战是如何处理数据中的差距。 测量是随机进行的,因此总是会有较小的间隙和非常大的间隙。
这里处理缺失数据的最佳方法是什么。
我正在考虑以下方法:
我现在的问题是对此进行编码的最佳方法是什么。
目前,LSTM网络以未编码的输入向量的形式获得输入:
vector1, vector2,..
向量包含值。
但现在当我产生新的符号时,如:
s1 := <=3 days no measurement taken
s2 := <=7 ..
我会对它们进行热编码。
最好引入两种单词类型之间的前缀吗?
E.g。
1 vector -> 1, value1, value2
0 vecotr -> 0, 0, 1 (s1)
-> 0, 1, 0 (s2)
答案 0 :(得分:0)
实际上不可能以任何方式编码。