文本和文本混合的文本分析R中的分类列

时间:2017-05-26 11:29:52

标签: python r text-classification

我有一个IT操作票证的数据集,其中包括票号,说明,类别,子类别,优先级等字段。

我需要做的是使用可用数据(票号no除外)来预测票证优先级。示例数据如下所示。

Number  Priority Created_on Description               Category     Sub Category
719515  MEDIUM  05-01-2016  MedWay 3rd Lucene.... Server       Change
720317  MEDIUM  07-01-2016  DI - Medway 13146409  Application  Incident
720447  MEDIUM  08-01-2016  DI QLD Chermside....  Application  Medway

请指导我。

1 个答案:

答案 0 :(得分:3)

没有更多的回答有点困难,这更多的是上下文问题,而不是代码问题。但是这里是用来开始评估这个问题的逻辑。请记住,它可能涉及编写一些单独的脚本,每个脚本执行一部分任务。

尝试将问题分解成更小的部分。如果没有所有数据,则无法进行分析,因此请先创建数据。

您已将类别和子类别列入每个列表中的所有唯一因子,并根据您的系统和业务需求为每个因素创建一组权重。在制作子类别权重时,请记住它们将如何与类别(+/-以及幅度)进行交互。

编写脚本来阅读描述,计算所有非平凡的单词。为单词创建某种分类,以帮助您构建列表,通过类别和子类别通知模型。 该值是错误消息,机器名称,还是您可以使用关键字提取的其他一些代码或问题类型?

所有单词分组如何有意义? 如何做出决定?

在决定这些事情时考虑类别。

然后使用所有部件,决定模型,构建,测试和改进。我知道这里没有代码,但数据科学的问题解决部分大部分时间都在代码之外发生。

您需要自己提出代码。如果您在编辑后遇到困难,我们可以提供帮助。