应用错误收集

用于网络数据聚类的预处理

时间：2014-07-20 13:21:55

标签： python numpy cluster-analysis scikit-learn data-mining

我将对网络数据应用群集（k-means），其中包含ip地址和端口号等列。尽管端口号是整数，但是例如第80和第81端口之间的关系不比第80和第1800端口之间的关系更接近。所以我认为我不应该使用它们（整数）。

我认为使用DictVectorizer也不合适，因为有65535个端口所以我需要一个不同的方法。 IP地址与端口有相同的问题。

使用或不使用scikit-learn（或使用或不使用k-means）有没有办法解决问题？

1 个答案:

答案 0 :(得分：3)

k-means必须计算表示。

端口80和81的平均值是多少？港口80.5？

不，k-means 仅对连续和线性属性敏感。否则，方差（k均值的优化标准）和均值都没有任何意义......

您可以尝试各种黑客攻击，例如将每个端口设为单独的属性。但k-means对二进制数据也没有意义。

使用其他算法。基于距离的算法很好，如果你已经弄清楚如何测量相似性。

相关问题

数据聚类方法

类似外观文本数据的概率聚类技术？

数据聚类 - 数据的预处理

准备用于分层聚类的分类数据

使用CLUTO进行群集时输入数据的数据预处理

超像素的聚类

用于网络数据聚类的预处理

卷积神经网络的图像预处理

准备数据以进行聚类分析和数据预处理

数据聚类

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？