在使用twitteR软件包进行电子商务网站的情绪分析时,我注意到我得到的大部分推文都是关于优惠和销售的。他们总是有一个超链接,如果我可以在我的输入提要中忽略这些推文,我可以从消费者那里得到更多我想要衡量的推文。虽然我可以在完善数据的同时将这些推文保留下来,但它会产生一个非常小的数据集。在搜索过程中有什么办法吗?我的目标是获得一个包含客户推文的足够大的数据集。
答案 0 :(得分:1)
虽然我没有清楚地理解您的问题,但如果您只想使用twitteR软件包从数据中删除网址,这可能会有所帮助
removeURL <- function (x) gsub("http[[:alnum:]]*", "", x)
myCorpus <- tm_map(myCorpus, removeURL)
答案 1 :(得分:0)
不,您无法正确地向API询问不包含链接的推文&#39;。找到这些推文的共同点,比如说&#39; Etrans :我刚买了X http://...'并通过&#39; querysubject -Etrans&#39;在以后的查询中过滤掉它们。