我正在使用TwitteR包(特别是searchTwitter
函数)以csv
格式导出包含特定主题标签的所有推文。
我想分析他们的文本并发现其中有多少包含我刚刚保存在名为importantwords.txt
的文件中的特定单词列表。
如何创建一个函数,可以返回一个包含我在文件importantwords.txt
中写入的单词的推文的分数?
答案 0 :(得分:0)
伪代码:
> for (every word in importantwords.txt):
> int i = 0;
> for (every line in tweets.csv):
> if (line contains(word)):
> i = i+1
> print(word: i)
这是否符合您的要求?
答案 1 :(得分:0)
我认为最好的办法是使用tm包。
http://cran.r-project.org/web/packages/tm/index.html
这个家伙使用它来创建带有信息的词云。查看他的代码也可能会帮助你。
http://davetang.org/muse/2013/04/06/using-the-r_twitter-package/
如果你的重要的话只是为了避免“这个”“a”这样的事情,这将是正常的。如果特别针对某些内容,您需要使用检索计数的单词列表循环语料库。
希望它有所帮助 森