如何在预定义的类别不可用时对文本进行分类

时间:2011-09-14 13:07:14

标签: nlp data-mining text-processing

我遇到了一个问题,并没有想到哪种算法必须应用。 我想在第二种情况下应用聚类但在第一种情况下不知道:

我有500万张信用卡活动文件。每个文档都定义良好,每行包含1个事务。零售商的日期,金额,零售商名称和简短的5-20字描述。 样品: 2004-11-47,$ 500,亚马逊,一家提供商品和服务的在线零售商,包括书籍,硬件,音乐等。 问题: 1.如果没有预先定义的类别,如何对每个条目进行分类。 2.如果您获得预先定义的类别,如“餐馆”,“娱乐”等,将如何做到这一点。

1 个答案:

答案 0 :(得分:0)

1)如果没有预定义的类别,如何对每个条目进行分类。

你不会。相反,你会在2-d中对数据的特征使用一些降维算法,猜测“自然”聚类的数量,然后运行聚类算法。

2)如果您获得预先定义的类别,如“餐馆”,“娱乐”等,该怎么做?

你手动标记了一堆它们,然后训练一个分类器,看看它与普通的精度机制/ F1,交叉验证等有什么关系。或者你要检查一个聚类算法是否有效这些类别很好,但是你仍然需要一些标记数据。