根据两个变量将数据集细分为4个细分

时间:2018-09-27 14:59:56

标签: python machine-learning logic cluster-analysis data-science

我有一个数据集,其中包含搜索词,totalsearch计数和所使用的总搜索短语。它是这样的:

Sno        SearchWord        TotalSearch       TotalsearchPhrases
 1          Ball-e              100                  10
 2          Apple               897                  4
 3          Deutsche            1500                 21
 4          Microsoft           981                  7
 5          Holochen             30                  1
 6          Kamazai              20                  10

基本上,

  • 搜索总数表示搜索公司的次数 一个月内
  • 搜索短语总数表示使用了哪些独特的单词进行搜索 该公司( Due,dtsche,Duetch等(德意志等)

我要将包含10000多家公司的数据分为4类:

  1. 使用的总搜索量很高和使用的搜索词总比例很高
  2. 使用的总搜索量高而搜索词组总数低
  3. 总搜索量少和使用的总搜索短语高
  4. 使用的总搜索量少和搜索词组总数低

在为这4个标准确定阈值时,我感到困惑,有没有办法利用机器学习通过聚类或其他方法自动分配阈值?

1 个答案:

答案 0 :(得分:0)

我确实相信可以做到。根据您的问题,我假设您正在询问以下问题:

给出n x 4个向量[n,搜索词,公司总搜索量,总搜索词使用量],您必须将其划分为上面指定的4个类别。

为此,您必须构建一些子模块来解决问题。

第一个模块:分类器

您必须首先确定列表中唯一公司的数量。然后,您必须识别用于识别每个唯一公司的通用搜索短语。为此,您需要构建一个监督学习分类器。

标签=公司

功能=输入搜索栏

所以:标签= f(特征)

第二个模块

然后,您必须指定您认为最高和最低的总搜索和搜索短语。您可以通过查找搜索词组或整体搜索的平均值或中位数轻松地做到这一点。然后,以上所有公司都将在一个集群中,其余的将在其余的集群中。

因此,首先,通过查看哪些公司低于总搜索量,将您的数据分成一半,一半高于总搜索量。然后,对于每一半,您将它们分成两半。这一次,由中间使用的总搜索短语组成。对于任何新数据,请根据其总搜索量和总搜索词组将它们分配到适当的组。

有了这个,您可以获得4个单独的集群。另外,您可以每隔1000个新数据点重新运行聚类算法。因此,您的数据将始终得到正确的组织。