我正在开展一个宠物项目,该项目涉及将原始数据(例如csv)分组为一个更有条理,更有用的数据结构,具有x个嵌套级别。
原始数据例如(来自在线购物网站的数据,比如Kindle书店):
Excel 2013
Excel 2015
Farming practices 101
Cooking 101
Photoshop Basics
成:
Level 1 -> Level 2 -> Level 3 -> Raw Data Level 4
Office Tools -> Microsoft Products -> Excel -> Excel 2013
Office Tools -> Microsoft Products -> Excel -> Excel 2015
Farming -> Farming Practices -> Basics -> Farming Practices 101
Design -> Photoshop -> Basics -> Photoshop Basics
用户可以将原始数据生成为标签,我希望我的项目将它们分组到基本类别中(假设我有一个最高级别的基本列表)。
目前,我有基本的知识疤痕和分组,但我希望使用一些算法方法(大数据,也许)对它们进行分组。另外,我正在查看AWS DynamoDB + Redshift,以便我可以对此进行测试。我不打算这是完美的,因为它是一个POC。有没有人试图做这种东西?如果是的话,我应该怎么做呢?我也可以在聊天/这里提供更多细节。
我不是在考虑如何处理分组数据,而是研究如何使用算法对数据进行分组。
答案 0 :(得分:0)
统计算法无法从输入数据中推断出例如Excel来自Microsoft和Office工具。
这需要更大的知识库,因为该信息不在您的输入数据中。
因此,我们不推荐算法,因为没有人可以做到这一点。