标签: python machine-learning nltk text-mining text-classification
我有多个原始文档文件夹。每个文件夹都有一个特定的名称,例如社交,政治,体育等。所有文件夹都包含两个 .txt 文件。其中之一是训练算法,而另一则是用作测试集。
我如何提出结构化数据,以便可以通过它提供学习算法?
到目前为止我所做的:
我需要做的是什么,我还不知道怎么做:
然后,我可以应用学习算法并向其提供结构化数据。