使用机器学习的JSON文档聚类

时间:2017-09-22 18:41:32

标签: java json machine-learning cluster-analysis data-science

我正在尝试执行文档群集。输入格式是一个JSON字符串,具有各种键和字符串和数字类型的值。根据存在的键的类型和值,我应该能够使用类似的类型对文档进行聚类。

例如:JSOn文件: {"title":0, "brand":"Levis", "length":"28,30,32,34,36", "type":"Jeans"}, {"title":0, "brand":"Levis", "length":"28,30,32,34,36", "type":"Shirt"}, {"title":0, "brand":"Levis", "length":"28,30,32,34,36", "type":"Jeans"}, {"title":0, "brand":"Levis", "length":"28,30,32,34,36", "type":"Jeans"}, {"title":0, "brand":"Levis", "length":"28,30,32,34,36", "type":"Top"}, {"title":0, "Bname":"Brand1", "weight":"100", "type":"Top"}, {"title":0, "Bname":"Lee", "height":"2864", "type":"refrigerator"}, {"title":0, "brand":"Levis", "length":"28,30,32,34,36", "type":"Top"}, {"title":0, "Time":"Casio", "Price":"2000", "type":"watch"}, {"title":0, "brand":"Levis", "length":"28,30,32,34,36", "type":"Top"}, {"title":0, "brand":"Levis", "length":"28,30,32,34,36", "type":"Shirt"}

基于匹配的参数,我想聚集文档。

我想知道方法和可能的java机器学习库来执行此操作。

直到现在我已经了解了群集中的Kmeans,DBSCAN,但我不确定将JSON字符串减少为向量以及如何对此结果执行群集。

1 个答案:

答案 0 :(得分:-1)

我尝试将每个JSON字段转换为CSV或某些数据帧(作为python pandas)的列,注意空值或格式不正确。

如果您正在使用Java,那么这是一种使用该编程语言进行机器学习的good article。您可以应用相同的原则。

Weka是一个很好的java工具,可以开始尝试监督和无监督算法。

祝你好运!