我是机器学习算法的新手,我试图根据新闻网站的用户点击流进行用户细分。我准备了点击流,以便我知道哪个用户ID读取了哪个新闻类别和次数。
所以我的表看起来像这样:
-------------------------------------------------------
| UserID | Category 1 | Category 2 | ... | Category 20
-------------------------------------------------------
| 123 | 4 | 0 | ... | 2
-------------------------------------------------------
| 124 | 0 | 10 | ... | 12
-------------------------------------------------------
我想知道k-means是否适用于这么多类别?阅读文章使用百分比而不是整数会更好吗? 所以例如user123总共阅读了6篇文章 - 其中4个是1类,所以它对类别1的兴趣为66.6%。
另一个想法是选择每个用户最常阅读的3个类别并将表格转换为类似的内容,其中兴趣1:12表示用户对第12类最感兴趣
-------------------------------------------------------
| UserID | Interest 1 | Interest 2 | Interest 3
-------------------------------------------------------
| 123 | 1 | 12 | 7
-------------------------------------------------------
| 124 | 12 | 13 | 20
-------------------------------------------------------
答案 0 :(得分:0)
K-means不能很好地运作有两个主要原因:
用于连续,密集的数据。您的数据是离散的。
它对异常值不稳健,你可能有很多嘈杂的数据
答案 1 :(得分:0)
嗯,没有定义用户数量,因为它是一种理论方法,但因为它是一个新闻网站,我们假设有数百万用户......
是否会有另一种更好的算法来根据用户群的兴趣来聚类用户群?当我准备第一个表的数据,以便我有一个用户对每个类别的百分比感兴趣 - 数据是连续的而不是离散的 - 或者我错了吗?