R - 从文档中删除单词类

时间:2017-08-15 18:13:01

标签: r nlp text-mining

是否有可能从文档中删除特定类型的单词(例如:文章,名词,代词,形容词,动词,副词,连词,介词和所有格代词),例如如何从文本正文中删除停用词?如果是这样,怎么样?我想一个自然语言处理库会有这个功能,但我还没找到任何东西。

2 个答案:

答案 0 :(得分:0)

结帐koRpus::treetag

来自CRAN:

  

此函数调用TreeTagger [1]的本地安装来对给定文本进行标记化和POS标记。

答案 1 :(得分:0)

您只需要使用第三方库在“语音部分”(POS)中标记句子中的单词,然后删除您不想保留的那些词性标记(例如,名词)。这些库的示例如下:

所有三个库都使用this list个POS标记,称为Penn Treebank标记集。

POS标记语句的示例:

句子:可以从文档中删除特定类型的单词

POS标记:它/ PRP是/ VBZ可能/ JJ到/ TO删除/ VB特定/ JJ类型/ NNS / IN IN / NNS来自/ IN documents / NNS