如何使用R

时间:2017-04-12 14:44:28

标签: r tm

我是使用R的初学者,我目前正在处理一个包含多列的文件。我想专注于一个列(在csv文件中标记为文本)并创建一个语料库,然后更改文本列中的文本,使其全部为小写,删除标点符号等。

以下代码是我目前的代码:

# Import text data

ALL_tweets_df <- read.csv("All_tweets.csv", stringsAsFactors = FALSE)

library(tm)

# View the structure of tweets

str(ALL_tweets_df)

# Print out the number of rows in tweets

nrow(ALL_tweets_df)

# Isolate text from tweets: All_tweets

ALL_tweets_df <- ALL_tweets_df$text

#converts the relevant part of your file into a corpus

mycorpus<-Corpus(VectorSource(ALL_tweets_df$text)) 

# change to lower case, remove stop words, remove punctuation

mycorpus2 = tm_map(mycorpus, tolower)

mycorpus3 = tm_map(mycorpus2, removeWords, stopwords("english"))

mycorpus4 = tm_map(mycorpus3, removePunctuation)

我在尝试将文件的相关部分转换为语料库时出错了,因为它说我有一个0的列表作为mycorpus的值,这可能不对,因为有数千条推文在csv文件中的文本列。有谁知道我怎么能修改它以便它起作用?

真的很感激任何帮助。

0 个答案:

没有答案