我已阅读以下文章: https://ipython-books.github.io/84-learning-from-text-naive-bayes-for-natural-language-processing/和https://towardsdatascience.com/multi-class-text-classification-with-scikit-learn-12f1e60e0a9f。
我了解两个示例中的作者如何使用TfidfVectorizer,然后对数据中的所有文本/句子调用fit_transform
。但是,我对scikit-learn如何知道一个文本/句子的分类有些困惑(如果这是合理的话)。我认为稍后使用train_test_split
时可以解决此问题? train_test_split
的第一个参数是否引用分别与分类关联的数据字符串列表,而第二个参数引用分类列表?换句话说,在相同索引处从第一和第二参数开始的元素对是所有句子的组合和所有句子的相同分类的对吗?
当前,我有一个JSON文件,其中包含一个字典,该字典的键为分类,而值则为被分类为该分类的所有句子的列表。我想使用该数据对其他未知句子进行分类。这是我第一次进行语言建模并使用scikit-learn,所以我有些失落。