我正在尝试建立一个流程来提取与一组关键字相关的Reddit帖子和评论。 get_reddit()
包中的RedditExtractoR
函数使这非常简单,但我不确定我是否正确使用了搜索词,而且我无法在包文档中找到有用的详细信息或在线。我还测试了在Reddit网站上运行的搜索功能,如下所示,没有运气。
使用下面的代码,我测试了一些术语,结果有点令人困惑。 (注意:在测试中,实际结果数可能会根据查询传递的时间略有不同。)
library(RedditExtractoR)
term <- "bank" # or "bank loan" or "bank, loan" etc.
test <- get_reddit(search_terms = term,
page_threshold = 10,
sort_by = "new")
"bank"
返回196条记录; "loan"
给出了157. "bank, loan"
和"bank loan"
各约为2700; "bank OR loan"
只得到31.我希望"bank, loan"
/ "bank loan"
不超过196 + 157(= 353)。
我错过了什么?
答案 0 :(得分:0)
似乎:
term <- "bank or loan"
转换为银行+或+贷款,这可以解释为什么你会得到意想不到的结果。在github上查看此行。
所以我建议你尝试这样的事情:
term <- "bank|loan"
现在我得到大约700个结果。