我正在尝试执行文档群集。输入格式是一个JSON字符串,具有各种键和字符串和数字类型的值。根据存在的键的类型和值,我应该能够使用类似的类型对文档进行聚类。
例如:JSOn文件:
{"title":0, "brand":"Levis", "length":"28,30,32,34,36", "type":"Jeans"},
{"title":0, "brand":"Levis", "length":"28,30,32,34,36", "type":"Shirt"},
{"title":0, "brand":"Levis", "length":"28,30,32,34,36", "type":"Jeans"},
{"title":0, "brand":"Levis", "length":"28,30,32,34,36", "type":"Jeans"},
{"title":0, "brand":"Levis", "length":"28,30,32,34,36", "type":"Top"},
{"title":0, "Bname":"Brand1", "weight":"100", "type":"Top"},
{"title":0, "Bname":"Lee", "height":"2864", "type":"refrigerator"},
{"title":0, "brand":"Levis", "length":"28,30,32,34,36", "type":"Top"},
{"title":0, "Time":"Casio", "Price":"2000", "type":"watch"},
{"title":0, "brand":"Levis", "length":"28,30,32,34,36", "type":"Top"},
{"title":0, "brand":"Levis", "length":"28,30,32,34,36", "type":"Shirt"}
基于匹配的参数,我想聚集文档。
我想知道方法和可能的java机器学习库来执行此操作。
直到现在我已经了解了群集中的Kmeans,DBSCAN,但我不确定将JSON字符串减少为向量以及如何对此结果执行群集。
答案 0 :(得分:-1)
我尝试将每个JSON字段转换为CSV或某些数据帧(作为python pandas)的列,注意空值或格式不正确。
如果您正在使用Java,那么这是一种使用该编程语言进行机器学习的good article。您可以应用相同的原则。
Weka是一个很好的java工具,可以开始尝试监督和无监督算法。
祝你好运!