我正在寻找一种算法,对不同格式化的10位(大部分)整数键进行分类。训练数据集如下所示:
+------------+----------------+
| key | classification |
+------------+----------------+
| 1000012355 | US |
| 1000045331 | US |
| 0000123101 | DE |
| 0003453202 | DE |
| 000K213411 | ES |
| 000K243221 | ES |
+------------+----------------+
密钥源自不同的系统,并以不同的方式创建。有大量的训练数据集。虽然我假设这些键的某些部分是随机的,但结构却不是。
任何帮助将不胜感激。
答案 0 :(得分:0)
你可以对每个角色进行一次热门编码,并将它们连接起来。
也就是说,假设您有20个可能的字符,密钥中的这10个字符中的每一个都可以使用。然后,您可以将每个字符转换为20个长度的零向量,其中一个位于与特定字符对应的位置。然后,您将拥有一个长度为10 * 20 = 200的整体特征向量。然后,您可以将其作为输入提供给任何分类算法,目标输出是可能的国家。
如果这是真正的确定性,并且密钥可以分开,则决策树可能会找到完美的解决方案。甚至是逻辑回归?如果有一些“模糊”的话。然后像随机森林这样的东西可能会更好。
答案 1 :(得分:0)
在构建模型,训练和预测之前。最好先分析问题,你假设这些键的某些部分是随机的,结构不是。你需要探索数据集以证明你的假设并根据分发数据,确定使用哪种模型。