R包Twitter分析推文文字

时间:2014-01-02 19:13:43

标签: twitter hashtag tweets text-analysis twitter-r

我正在使用TwitteR包(特别是searchTwitter函数)以csv格式导出包含特定主题标签的所有推文。

我想分析他们的文本并发现其中有多少包含我刚刚保存在名为importantwords.txt的文件中的特定单词列表。

如何创建一个函数,可以返回一个包含我在文件importantwords.txt中写入的单词的推文的分数?

2 个答案:

答案 0 :(得分:0)

伪代码:

> for (every word in importantwords.txt):
>     int i = 0;
>     for (every line in tweets.csv):
>         if (line contains(word)):
>             i = i+1
>     print(word: i)

这是否符合您的要求?

答案 1 :(得分:0)

我认为最好的办法是使用tm包。

http://cran.r-project.org/web/packages/tm/index.html

这个家伙使用它来创建带有信息的词云。查看他的代码也可能会帮助你。

http://davetang.org/muse/2013/04/06/using-the-r_twitter-package/

如果你的重要的话只是为了避免“这个”“a”这样的事情,这将是正常的。如果特别针对某些内容,您需要使用检索计数的单词列表循环语料库。

希望它有所帮助 森