如何量化这些特征,以便使用Logistic回归分析它们?

时间:2014-04-28 16:34:26

标签: machine-learning

我有一个非常小的问题让我困惑了一段时间。我有一个有趣功能的数据集,但其中一些是无量纲的数量(我已尝试过使用z分数),但它们使事情变得更糟。这些是:

Timestamps (Like YYYYMMDDHHMMSSMis) I am getting the last 9 chars from this.
User IDs (Like in a Hash form) How do I extract meaning from them?
IP Addresses (You know what those are). I only extract the first 3 chars.
City (Has an ID like 1,15,72) How do I extract meaning from this?
Region (Same as city) Should I extract meaning from this or just leave it?

剩下的事情是价格,宽度和高度。任何帮助或见解将不胜感激。谢谢。

1 个答案:

答案 0 :(得分:1)

  • 时间戳可以转换为Unix时间戳,这是合理的自然数
  • 用户IF /城市/地区是名义价值,必须以某种方式进行编码。最常见的方法是创建与可能值的数量一样多的“虚拟”维度。因此,如果您有100个环,那么您创建100个维度并仅在代表特定城市的那个上给出“1”(而在其他城市上为0)
  • 应该删除IP,或将其转换为一小部分(基于DNS网络标识和如上所述的名义到虚拟转换)