Question

在使用twitteR软件包进行电子商务网站的情绪分析时，我注意到我得到的大部分推文都是关于优惠和销售的。他们总是有一个超链接，如果我可以在我的输入提要中忽略这些推文，我可以从消费者那里得到更多我想要衡量的推文。虽然我可以在完善数据的同时将这些推文保留下来，但它会产生一个非常小的数据集。在搜索过程中有什么办法吗？我的目标是获得一个包含客户推文的足够大的数据集。

Answer 1

虽然我没有清楚地理解您的问题，但如果您只想使用twitteR软件包从数据中删除网址，这可能会有所帮助

removeURL <- function (x) gsub("http[[:alnum:]]*", "", x)
myCorpus  <- tm_map(myCorpus, removeURL)

Answer 2

不，您无法正确地向API询问不包含链接的推文＆＃39;。找到这些推文的共同点，比如说＆＃39; Etrans ：我刚买了X http：//...'并通过＆＃39; querysubject -Etrans＆＃39;在以后的查询中过滤掉它们。

使用twitteR删除包含超链接的推文

2 个答案: