应用错误收集

如何在预定义的类别不可用时对文本进行分类

时间：2011-09-14 13:07:14

标签： nlp data-mining text-processing

我遇到了一个问题，并没有想到哪种算法必须应用。我想在第二种情况下应用聚类但在第一种情况下不知道：

我有500万张信用卡活动文件。每个文档都定义良好，每行包含1个事务。零售商的日期，金额，零售商名称和简短的5-20字描述。样品： 2004-11-47，$ 500，亚马逊，一家提供商品和服务的在线零售商，包括书籍，硬件，音乐等。问题： 1.如果没有预先定义的类别，如何对每个条目进行分类。 2.如果您获得预先定义的类别，如“餐馆”，“娱乐”等，将如何做到这一点。

1 个答案:

答案 0 :(得分：0)

1）如果没有预定义的类别，如何对每个条目进行分类。

你不会。相反，你会在2-d中对数据的特征使用一些降维算法，猜测“自然”聚类的数量，然后运行聚类算法。

2）如果您获得预先定义的类别，如“餐馆”，“娱乐”等，该怎么做？

你手动标记了一堆它们，然后训练一个分类器，看看它与普通的精度机制/ F1，交叉验证等有什么关系。或者你要检查一个聚类算法是否有效这些类别很好，但是你仍然需要一些标记数据。