此方案的文本分类技术

时间:2017-08-30 15:41:23

标签: machine-learning classification cluster-analysis data-mining

我是机器学习算法的新手,我对数据集的分类提出了一个简单的问题。

目前,训练数据由两列Message和Identifier组成。

消息 - 从包含时间戳和一些文本的日志中提取的典型消息 标识符 - 应根据消息内容对类别进行分类。

培训数据是通过从工具中提取特定类别并相应标记来制备的。

现在测试数据只包含消息,我正在尝试相应地获取类别。

在这种情况下哪种方法最有用?是监督学习还是无监督学习?

我有一个训练有素的数据集,我正在尝试预测测试数据的类别。

提前致谢, 亚当

3 个答案:

答案 0 :(得分:2)

如果您的标签是精确的,那么您可以使用ANN,SVM等进行分类。但标签并不准确,您必须根据数据中的功能对数据进行聚类。 K-means或最近邻居可以作为聚类的起点。

答案 1 :(得分:0)

您有预测标签和培训数据。

因此,根据定义,这是一个受监督的问题。

尝试任何文本分类器,例如NB,kNN,SVM,ANN,RF,......

很难预测哪种方法最适合您的数据。您将尝试评估几个

答案 2 :(得分:0)

这是监督学习和分类问题。

但是,显然您没有测试集的标签列(待预测值)。因此,您无法计算该测试集的误差测量值(例如误报率,准确度等)。

但是,您可以将执行所包含的标记训练数据集分成较小的训练集和验证集。也许是将它分成70%/ 30%。然后从较小的70%训练数据集构建预测模型。然后在30%验证集上调整它。当准确性足够好时,将其应用于您的测试集以获得/预测缺失值。

使用哪种技术/算法是一个不同的问题。您没有提供足够的信息来回答这个问题。即使你做了,你仍然需要自己调整模型。