将文本分类为多个类别

时间:2017-08-01 07:55:35

标签: machine-learning nlp

我正在研究一个需要确定单词是否为水果的项目。我尝试了几种方法,但对任何结果都不满意。有什么建议吗?

我的训练集看起来像这样

  • 输入:Apple是一个水果。 输出:Apple。
  • 输入:番石榴也是水果输出:番石榴。
  • 输入:菠萝是一种季节性水果输出:菠萝。

在训练数据外运行时的示例:

  • 输入:我喜欢所有的水果,但最喜欢的是番石榴和苹果。 输出:Guava,Apple

1 个答案:

答案 0 :(得分:1)

此任务称为命名实体识别。你可以为初学者阅读GMIC

一个受欢迎的图书馆是来自斯坦福的CoreNLP。您可以在on Wikipedia上阅读相关内容。

为了使用它,你需要在训练数据中标记每个标记(单词),表明它是否是水果。希望这会有所帮助。