我使用以下代码清除了Tweet中用户名的主体。但是有些名字在云这个词中。他们为什么错了?
scanf
答案 0 :(得分:1)
您的问题是执行代码的顺序。您首先删除标点符号,然后再删除Twitter句柄。删除标点符号将不会删除@。剥离空格也是如此,这是您最后应执行的步骤。
以下顺序应注意Twitter句柄和空格。
mycorpus <- tm_map(mycorpus, PlainTextDocument)
mycorpus <- tm_map(mycorpus, content_transformer(removeUsername))
mycorpus <- tm_map(mycorpus, content_transformer(removeURL))
mycorpus <- tm_map(mycorpus, content_transformer(tolower))
mycorpus <- tm_map(mycorpus, content_transformer(removeNumPunct))
mycorpus <- tm_map(mycorpus, content_transformer(removeNumbers))
mycorpus <- tm_map(mycorpus, stripWhitespace)
tm还已经包含用于删除标点符号和数字的函数,如下面的示例所示,这些函数无需content_transformer
就可以使用。
mycorpus <- tm_map(mycorpus, removePunctuation)
mycorpus <- tm_map(mycorpus, removeNumbers)
您可以检查包装的Quanteda。它具有许多这些Twitter功能,它们已经作为标志包含在tokens
函数中。