对NLP或ML的建议

时间:2018-05-28 21:01:01

标签: machine-learning

我是机器学习的新手,拥有一个包含两列的数据集。第一个代表标题,第二个代表标签 - 0或1.标题和标签对应文本是指犯罪还是没有犯罪。例如:

两名学生在飓风哈维期间进行入店行窃以支持一个家庭,1 新墨西哥大学录取学生人数创纪录,0

我认为这是一个NLP问题,但我不知道如何开始。有人可以提供建议吗?

1 个答案:

答案 0 :(得分:-1)

在这里,您可以在互联网上查看案例的一些基本关键字,以实现文本数据的机器学习:

  1. 文字处理:

    • Lemmatizer
    • Stemming,
    • 停止删除字词...... =>您可以在Python中使用NLTK
  2. Vectorizer(基本上将文本转换为数字):

    • TFIDF
    • 一揽子话语
    • Word2Vec
    • 其他Word嵌入 => NLTK,Python中的gensim
  3. 对转换后的数据应用分类模型

    • 随机森林
    • SVM
    • ...
    • CNN + LSTM => Scikit-Learn,Keras