Question

我有一个非常小的问题让我困惑了一段时间。我有一个有趣功能的数据集，但其中一些是无量纲的数量（我已尝试过使用z分数），但它们使事情变得更糟。这些是：

Timestamps (Like YYYYMMDDHHMMSSMis) I am getting the last 9 chars from this.
User IDs (Like in a Hash form) How do I extract meaning from them?
IP Addresses (You know what those are). I only extract the first 3 chars.
City (Has an ID like 1,15,72) How do I extract meaning from this?
Region (Same as city) Should I extract meaning from this or just leave it?

剩下的事情是价格，宽度和高度。任何帮助或见解将不胜感激。谢谢。

Answer 1

时间戳可以转换为Unix时间戳，这是合理的自然数
用户IF /城市/地区是名义价值，必须以某种方式进行编码。最常见的方法是创建与可能值的数量一样多的“虚拟”维度。因此，如果您有100个环，那么您创建100个维度并仅在代表特定城市的那个上给出“1”（而在其他城市上为0）
应该删除IP，或将其转换为一小部分（基于DNS网络标识和如上所述的名义到虚拟转换）

如何量化这些特征，以便使用Logistic回归分析它们？

1 个答案: