使用twitteR删除包含超链接的推文

时间:2016-02-24 06:28:16

标签: r twitter sentiment-analysis

在使用twitteR软件包进行电子商务网站的情绪分析时,我注意到我得到的大部分推文都是关于优惠和销售的。他们总是有一个超链接,如果我可以在我的输入提要中忽略这些推文,我可以从消费者那里得到更多我想要衡量的推文。虽然我可以在完善数据的同时将这些推文保留下来,但它会产生一个非常小的数据集。在搜索过程中有什么办法吗?我的目标是获得一个包含客户推文的足够大的数据集。

2 个答案:

答案 0 :(得分:1)

虽然我没有清楚地理解您的问题,但如果您只想使用twitteR软件包从数据中删除网址,这可能会有所帮助

removeURL <- function (x) gsub("http[[:alnum:]]*", "", x)
myCorpus  <- tm_map(myCorpus, removeURL)

答案 1 :(得分:0)

不,您无法正确地向API询问不包含链接的推文&#39;。找到这些推文的共同点,比如说&#39; Etrans :我刚买了X http://...'并通过&#39; querysubject -Etrans&#39;在以后的查询中过滤掉它们。