我需要输出一种热编码的浏览器和版本数据。我们提出了一些选择(下面概述)。我进行了一些搜索,但找不到具有相似数据(搜索过Kaggle Datasets和DuckDuckGo)的人的任何现有示例。
| order_id | browser_version |
| 1 | Safari-1.2.3 |
| 2 | Chrome-4.5.6 |
| 3 | Firefox-7.8.9 |
| order_id | browser | version |
| 1 | Safari | 1.2.3 |
| 2 | Chrome | 4.5.6 |
| 3 | Firefox | 7.8.9 |
| order_id | browser | browser_version |
| 1 | Safari | Safari-1.2.3 |
| 2 | Chrome | Chrome-4.5.6 |
| 3 | Firefox | Firefox-7.8.9 |
为一种热编码设置数据值(假设CSV文件,列)的最有益方法是什么?
我认为正确的答案可能是测试每个选项并检查结果,但是我认为这很可能是之前做过的事情,因此我认为这是一个值得问的问题。
答案 0 :(得分:1)
我会使用第一个选项。它将给出每对索引(浏览器|版本)。
第二个选项将不同浏览器的版本号放在同一列中,而这些数字不可比较。您可以将一个Chrome版本号与另一个Chrome版本号进行比较,但不能将一个Chrome版本号与Firefox进行比较。
第三个选项包含第一个选项,并带有其他冗余数据。