我正在实施一个小型CRM系统。数据挖掘的概念预测和发现机会和趋势对于此类系统至关重要。一种数据挖掘方法是聚类。这是一个非常小的CRM项目,使用java提供从数据库中检索信息的接口。
我的问题是,当我将客户插入数据库时,我有一个文本字段,允许客户在进入数据库的途中被标记,即注册点。
您会将标记技术视为群集吗?如果是这样,这是一种数据挖掘技术吗?
我确信存在复杂的API,例如允许数据挖掘的Java Data Mining API。但是为了我的项目,我只想知道用stackoverflow这样的关键字标记用户是否允许在发布问题上标记关键字是一种数据挖掘形式,因为通过这些标记的单词,人们可以通过搜索轻松找到趋势和模式。
答案 0 :(得分:1)
简而言之,是的,标签是一些额外的信息,可以让以后更容易进行数据挖掘。
但是,他们可能还不够。标签链接到实体,并且根据您计算它们的方式,它们可能不会显示不同实体之间的有趣关系。使用您的标记系统,我看到的唯一可用关系是“具有相同的标记”,这可能还不够。使用您的数据和实体之间的关系构建的图表上的社区检测技术可以对数据进行聚类。 这个例子是在Python中并使用networkx库,但它可能会让你知道我在说什么:http://perso.crans.org/aynaud/communities/