标签: r nlp text-mining
是否有可能从文档中删除特定类型的单词(例如:文章,名词,代词,形容词,动词,副词,连词,介词和所有格代词),例如如何从文本正文中删除停用词?如果是这样,怎么样?我想一个自然语言处理库会有这个功能,但我还没找到任何东西。
答案 0 :(得分:0)
结帐koRpus::treetag。
koRpus::treetag
来自CRAN:
此函数调用TreeTagger [1]的本地安装来对给定文本进行标记化和POS标记。
答案 1 :(得分:0)
您只需要使用第三方库在“语音部分”(POS)中标记句子中的单词,然后删除您不想保留的那些词性标记(例如,名词)。这些库的示例如下:
所有三个库都使用this list个POS标记,称为Penn Treebank标记集。
POS标记语句的示例:
句子:可以从文档中删除特定类型的单词
POS标记:它/ PRP是/ VBZ可能/ JJ到/ TO删除/ VB特定/ JJ类型/ NNS / IN IN / NNS来自/ IN documents / NNS