我有一个数据集,其中包含搜索词,totalsearch计数和所使用的总搜索短语。它是这样的:
Sno SearchWord TotalSearch TotalsearchPhrases
1 Ball-e 100 10
2 Apple 897 4
3 Deutsche 1500 21
4 Microsoft 981 7
5 Holochen 30 1
6 Kamazai 20 10
基本上,
我要将包含10000多家公司的数据分为4类:
在为这4个标准确定阈值时,我感到困惑,有没有办法利用机器学习通过聚类或其他方法自动分配阈值?
答案 0 :(得分:0)
我确实相信可以做到。根据您的问题,我假设您正在询问以下问题:
给出n x 4个向量[n,搜索词,公司总搜索量,总搜索词使用量],您必须将其划分为上面指定的4个类别。
为此,您必须构建一些子模块来解决问题。
第一个模块:分类器
您必须首先确定列表中唯一公司的数量。然后,您必须识别用于识别每个唯一公司的通用搜索短语。为此,您需要构建一个监督学习分类器。
标签=公司
功能=输入搜索栏
所以:标签= f(特征)
第二个模块
然后,您必须指定您认为最高和最低的总搜索和搜索短语。您可以通过查找搜索词组或整体搜索的平均值或中位数轻松地做到这一点。然后,以上所有公司都将在一个集群中,其余的将在其余的集群中。
因此,首先,通过查看哪些公司低于总搜索量,将您的数据分成一半,一半高于总搜索量。然后,对于每一半,您将它们分成两半。这一次,由中间使用的总搜索短语组成。对于任何新数据,请根据其总搜索量和总搜索词组将它们分配到适当的组。
有了这个,您可以获得4个单独的集群。另外,您可以每隔1000个新数据点重新运行聚类算法。因此,您的数据将始终得到正确的组织。