小文本的文本分析和聚类

时间:2016-03-06 17:07:49

标签: analytics ontology data-cleaning categorization lexicon

我有编程技能的数据集,我喜欢预处理/清理它并创建一些更通用的组。

  • 为了清洁,我可以对以下文字进行文字清理。以下数据集中的示例。 Visual C和C是相同的,或者Yi和Yi框架是相同的。
  • 是否有任何类型的程序员/软件工程和项目管理或本体词汇可以帮助我将以下内容分类为更抽象的类别

这是我的数据集

struct student ** topKStudents(struct student *students, int len, int K) {

    student* top_students = (struct student *)(malloc(K * sizeof(struct student)));
    struct student temp;
    int i;
    for (i = 0; i < len - 1; i++){
        for (int j = 0; j < len - 1; j++)
        if (students[j + 1].score>students[j].score){
            temp = students[j];
            students[j] = students[j + 1];
            students[j + 1] = temp;

        }
    }
    for (i = 0; i < K; i++){
            top_students[i] = students[i];
    }
    return &top_students;
}

1 个答案:

答案 0 :(得分:1)

有两种方法可以对数据集进行清理和分类:

  1. 手动
  2. 使用一些文本提取API,它可以让您了解层次结构。您可以使用AlchemyAPI,TextMiner等查看哪些术语组合在一起。它不会给你准确的分类,但会给你广泛的类别图片。