我正在尝试针对包含日期的房地产销售数据训练学习模型。根据{{3}}中的建议,我已经研究了1-to-K二进制编码,但是我的初步评估是,它可能具有无法很好地训练非可预测的循环数据的缺点。虽然房地产价值崩溃屡屡发生,但我担心(您可能告诉我,这可能是错误的),如果无法用年月-月-日的组合来解释重复发生,则进行1-to-K编码会无意中对潜在不相关的功能进行过度训练。天。
也就是说,我认为该方法具有潜在的价值。我认为将时间序列数据转换为序数的观点也很有价值,正如在同一线程中所建议的那样。这使我想到一个真正的问题:在相同的训练数据中以两种不同的形式复制相同的初始特征(日期数据)是否是错误的做法?我担心如果我使用的方法依赖于功能独立性的假设,那么我可能会违反这一点。
如果是这样,关于如何最好地从该日期数据中获取最大信息的建议是什么?
编辑:请留下评论,我将如何改善这个问题而不是拒绝投票。
答案 0 :(得分:2)
这是不好的做法吗?
否,有时候转换可以使您的Feature更容易实现算法的访问。按照这种思路,您可以完全转换功能。
它会扭曲您的算法吗?
关于运行时,最好不必每次都转换数据。根据转换的类型,您可能会获得较差的解释性(如果这对您很重要),这取决于您的算法。 另外,如果您想限制算法应使用的功能数量/组,则可以通过添加转换后的功能来添加信息冗余。
那你该怎么办?
根据需要并根据需要频繁地转换数据/功能。 这并没有伤害任何人,而是通过增加功能空间来提供帮助。但是,执行此操作之后,请执行PCA或类似操作,以便在功能中找到冗余并再次减少功能空间。
注意:
我试图成为General,显然这很大程度上取决于您使用的算法种类。