SOM数据准备

时间:2018-03-22 17:39:18

标签: r som

美好的一天。

我在R和R-Studio工作了3个月,但我得到了很多东西。我正在Self-Organising Maps for Customer Segmentation using R之后使用Kohonen SuperSOM实现一个带有38k记录/观测的SOM解决方案。

  • 我的数据没有丢失值,但差不多有60列,其中很多都是dummyVars(我以这种格式收到了这些数据)
  • 我删除了ONE char列(URL)
  • 我的Y栏(据我所知)是“分享”(分享了多少次)
  • 我的数据只包含数字数据(dummyVars当然是1或0)
  • 我有中心和缩放我的数据(整个数据框)
  • 根据我遵循的示例,我将整个DF转换为矩阵

我的问题是我的SOM需要很长时间才能进行训练,即使进行多核处理,我的进度图也没有达到一个很好的平坦“ish”高原,它确实很好地下降但仍然非常不稳定,我所有其他图表的人口都非常高而且没有很好的聚类。我甚至尝试过使用100x100网格的500次迭代; - (

我认为/猜测这是因为大量的列包括大多数虚拟的比例,例如dayOfWeek.Monday,dayOfWeek.Tuesday,category.LifeStile,category.Computers等。

我该怎么办?

我应该将dummyVars转换回另一种格式,如何以及为什么?

请不要只给我一段代码,因为我想了解为什么我需要做什么。

感谢名单

0 个答案:

没有答案