整理推文以进行情感分析

时间:2020-05-30 19:04:01

标签: r sentiment-analysis

我使用以下代码清除了Tweet中用户名的主体。但是有些名字在云这个词中。他们为什么错了?

scanf

1 个答案:

答案 0 :(得分:1)

您的问题是执行代码的顺序。您首先删除标点符号,然后再删除Twitter句柄。删除标点符号将不会删除@。剥离空格也是如此,这是您最后应执行的步骤。

以下顺序应注意Twitter句柄和空格。

mycorpus <- tm_map(mycorpus, PlainTextDocument) 
mycorpus <- tm_map(mycorpus, content_transformer(removeUsername))
mycorpus <- tm_map(mycorpus, content_transformer(removeURL)) 
mycorpus <- tm_map(mycorpus, content_transformer(tolower))
mycorpus <- tm_map(mycorpus, content_transformer(removeNumPunct)) 
mycorpus <- tm_map(mycorpus, content_transformer(removeNumbers))
mycorpus <- tm_map(mycorpus, stripWhitespace) 

tm还已经包含用于删除标点符号和数字的函数,如下面的示例所示,这些函数无需content_transformer就可以使用。

mycorpus <- tm_map(mycorpus, removePunctuation)
mycorpus <- tm_map(mycorpus, removeNumbers)

您可以检查包装的Quanteda。它具有许多这些Twitter功能,它们已经作为标志包含在tokens函数中。