为k-means聚类准备点击流

时间:2017-12-20 18:03:33

标签: machine-learning cluster-analysis data-mining k-means

我是机器学习算法的新手,我试图根据新闻网站的用户点击流进行用户细分。我准备了点击流,以便我知道哪个用户ID读取了哪个新闻类别和次数。

所以我的表看起来像这样:

-------------------------------------------------------
| UserID | Category 1 | Category 2 | ... | Category 20
-------------------------------------------------------
| 123    | 4          | 0          | ... | 2
-------------------------------------------------------
| 124    | 0          | 10         | ... | 12
-------------------------------------------------------

我想知道k-means是否适用于这么多类别?阅读文章使用百分比而不是整数会更好吗?  所以例如user123总共阅读了6篇文章 - 其中4个是1类,所以它对类别1的兴趣为66.6%。

另一个想法是选择每个用户最常阅读的3个类别并将表格转换为类似的内容,其中兴趣1:12表示用户对第12类最感兴趣

-------------------------------------------------------
| UserID | Interest 1 | Interest 2 | Interest 3
-------------------------------------------------------
| 123    | 1          | 12          | 7
-------------------------------------------------------
| 124    | 12          | 13         | 20
-------------------------------------------------------

2 个答案:

答案 0 :(得分:0)

K-means不能很好地运作有两个主要原因:

  1. 用于连续,密集的数据。您的数据是离散的。

  2. 它对异常值不稳健,你可能有很多嘈杂的数据

答案 1 :(得分:0)

嗯,没有定义用户数量,因为它是一种理论方法,但因为它是一个新闻网站,我们假设有数百万用户......

是否会有另一种更好的算法来根据用户群的兴趣来聚类用户群?当我准备第一个表的数据,以便我有一个用户对每个类别的百分比感兴趣 - 数据是连续的而不是离散的 - 或者我错了吗?