我有一个包含大量用户ID的CSV文件以及存在时的时间戳。我想使用机器学习来寻找倾向于一起访问的用户。通过查看我的CSV文件示例,您可以看到同时访问user1
和user2
,user3
和user4
同时{{1} }}和user5
单独访问。请注意,用户可以在数据集中多次出现,每次访问时都会添加一条新记录。
user6
因此,我设法在3D散点图上绘制每条记录,但实际上我只想为每个用户提供一个点,并让那些同时访问的人彼此靠近。还为每个用户提供图表上的独特颜色。我尝试了正常的数组方法而不是Numpy,因为我有很多问题需要解决。有没有更简单直接的方法来处理数据集,然后我在下面的代码中做了。另外,如何为每个用户制作一个具有独特颜色的点?
所以我已经提出了这个代码
user1,2017-08-06 08:00:30
user2,2017-08-06 08:00:35
user3,2017-08-07 12:00:10
user4,2017-08-07 12:00:15
user5,2017-08-08 07:00:00
user6,2017-08-08 20:00:00
...
TSNE超参数只是我发现的一些,我们自己没有对它们进行调整。