如何使用Python构建原始文本以进行分类?

时间:2018-07-09 18:13:26

标签: python machine-learning nltk text-mining text-classification

我有多个原始文档文件夹。每个文件夹都有一个特定的名称,例如社交,政治,体育等。所有文件夹都包含两个 .txt 文件。其中之一是训练算法,而另一则是用作测试集。

我如何提出结构化数据,以便可以通过它提供学习算法?

到目前为止我所做的:

  1. 标准化文本文件
  2. 删除停用词
  3. 计算每个单词的出现次数
  4. 创建了最常用单词的向量

我需要做的是什么,我还不知道怎么做:

  • 创建结构,例如 .csv

然后,我可以应用学习算法并向其提供结构化数据。

0 个答案:

没有答案