如何在不同类别下对输入文本进行分类

时间:2017-08-22 11:27:29

标签: r text-classification

text =“我的狗是食客”,“我想买一个新的”,“我的猫喜欢巧克力牛奶”

我如何从这些文本(或文本语料库)中提取关键字并将它们分类为不同的类别(即狗,猫被归类为宠物和大米,巧克力牛奶被归类为食物)

1 个答案:

答案 0 :(得分:1)

你被投了票,因为这个问题没有提供关于你的意思的足够详细信息"分类"因为你没有表明你希望达到的目标结果。

然而,这是一个基本答案:您可以创建字典并根据字典计算点击次数。在 quanteda 中,它的工作原理如下:

text <- c("my dog is a rice eater", 
          "I want to buy an a new",
          "my cat prefers chocolate milk")

library("quanteda")

fooddict <- dictionary(list(pet = c("cat", "dog"),
                            food = c("rice", "chocolate milk")))

dfm(text, dictionary = fooddict)
# Document-feature matrix of: 3 documents, 2 features (33.3% sparse).
# 3 x 2 sparse Matrix of class "dfmSparse"
#        features
# docs    pet food
#   text1   1    1
#   text2   0    0
#   text3   1    1