从电子表格值

时间:2016-10-29 10:24:33

标签: excel google-apps-script data-mining

初步

此问题适用于任何电子表格系统。我想帮助解决问题,而不是问题的答案。 (虽然后者最有用。)

我理解Stack Overflow对于特定的编程问题很有用,而且我理解它可能需要我几次尝试来解决我的问题,所以请帮我通过提供建议澄清我的问题,我会更新它。

像许多数据新手一样,我对谨慎的数据(例如上个月有多少查询)有很好的经验,但我很难理解如何处理连续数据(例如如何发现模式,以及查询的标准不在哪里但是已知)。

问题

我有一个电子表格,其中每行代表“网站查询”。有一个datetime列,我想发现这些数据中的模式,以回答如下问题:

  • 接收查询的最常见时间是什么
  • 收到询问的一周中最常见的一天
  • 我可以从数据中收集的其他有用信息,以便我可以定位可能的客户

这类似于您在社交媒体分析中经常看到的功能,例如“发布推文的最佳时间”。

我知道计算一周中最常见的一天非常简单,因为日子是谨慎的对象。所以我不需要帮助!

我想避免简单地将一天分成四个任意时间段(例如早餐,午餐,晚餐,夜间)并计算落入这些边界的行数。如果这些时间段不是最好用来分割数据怎么办?

除了使用任意边界量化我的数据之外,还有其他方法吗?

1 个答案:

答案 0 :(得分:1)

您可以使用群集来查找最常见的时间。基本上,您比较查询的时间间隔并将它们聚类为离散的1D数字集合,例如使用平均链接聚类标准。当您到达相当少量的聚类时,您将开始看到一天中最主要的时间(如果您想要评估这些聚类,您可以采用时间值作为最大聚类的加权中心)。