机器学习进行文本分类

时间:2019-09-30 18:20:31

标签: python tensorflow machine-learning

我有一个数据集,上面有新闻标题和新闻的类别。我希望我可以仅输入新闻标题来预测新闻的类别。 我需要能够对文本进行分类。 谢谢

1 个答案:

答案 0 :(得分:0)

您的问题不能完全回答,但是我可以给您一些起点。 ,您需要做一些自己的研究 本教程非常适合入门。 link

对于本地开发,我建议将Anaconda用于图书馆等和Jupyter笔记本。 要么 您可以为此使用google colab或Microsoft Azure笔记本。

  • 加载所需的库,
  • 加载数据,检查并清理数据
  • 用于训练和测试的拆分数据集
  • 将文本转换为矢量
  • 训练和测试模型并进行预测

和一些帮助代码,

# Split-out validation dataset
X = df_row['tweets'].values
Y = df_row['label'].values
validation_size = 0.20
seed = 7
X_train, X_test, Y_train, Y_test = model_selection.train_test_split(X, Y, test_size=validation_size, random_state=seed)

vocab_size = 1000    
# define Tokenizer with Vocab Size
tokenizer = Tokenizer(num_words=vocab_size)
tokenizer.fit_on_texts(X_train)
#X_test and X_train are data tweets(text columns)
X_train = tokenizer.texts_to_matrix(X_train, mode='tfidf')
#X_train is now in vectorized form