浏览器和版本应如何成为一种热门编码?

时间:2019-02-16 19:02:14

标签: machine-learning one-hot-encoding

我需要输出一种热编码的浏览器和版本数据。我们提出了一些选择(下面概述)。我进行了一些搜索,但找不到具有相似数据(搜索过Kaggle DatasetsDuckDuckGo)的人的任何现有示例。

  • 选项1:将浏览器名称和版本合并在一起的一列
    • 例如“ browser_version”列值:“ Safari-1.2.3”,“ Chrome-4.5.6”,“ Firefox-7.8.9”
| order_id | browser_version |
| 1        | Safari-1.2.3    |
| 2        | Chrome-4.5.6    |
| 3        | Firefox-7.8.9   |
  • 选项2:两列:一列带有浏览器名称,另一列带有浏览器版本
    • 例如“浏览器”(第1列)的值:“ Safari”,“ Chrome”,“ Firefox”
    • 例如“版本”(第2列)值:“ 1.2.3”,“ 4.5.6”,“ 7.8.9”
| order_id | browser | version |
| 1        | Safari  | 1.2.3   |
| 2        | Chrome  | 4.5.6   |
| 3        | Firefox | 7.8.9   |
  • 选项3:两列:一列包含浏览器名称,另一列包含浏览器名称和版本
    • 例如“浏览器”(第1列)的值:“ Safari”,“ Chrome”,“ Firefox”
    • 例如“ browser_version”(第2列)值:“ Safari-1.2.3”,“ Chrome-4.5.6”,“ Firefox-7.8.9”
| order_id | browser | browser_version |
| 1        | Safari  | Safari-1.2.3    |
| 2        | Chrome  | Chrome-4.5.6    |
| 3        | Firefox | Firefox-7.8.9   |

为一种热编码设置数据值(假设CSV文件,列)的最有益方法是什么?

我认为正确的答案可能是测试每个选项并检查结果,但是我认为这很可能是之前做过的事情,因此我认为这是一个值得问的问题。

1 个答案:

答案 0 :(得分:1)

我会使用第一个选项。它将给出每对索引(浏览器|版本)。

第二个选项将不同浏览器的版本号放在同一列中,而这些数字不可比较。您可以将一个Chrome版本号与另一个Chrome版本号进行比较,但不能将一个Chrome版本号与Firefox进行比较。

第三个选项包含第一个选项,并带有其他冗余数据。