我正在使用'tm'软件包来清理和挖掘与电子香烟相关的大量社交媒体帖子,作为对输出运行主成分分析的前提,以确定关键主题。我删除了标点符号,这导致了很多'e cig'和'e liquid'参考资料,我需要将它们组合成'ecig'和'eliquid'。
我很难制定一贯运行的功能。当我处理帖子的子样本(n = 40)时,这很有效:
fun6< - function(x){gsub(“e cig”,“ecig”,x)}
tmp1< - tm_map(tmp,content_transformer(fun6),lazy = TRUE)
但是,我现在正试图在更大的文件上运行转换(n = 100,000 +帖子)并且它不起作用。我运行它,检查,并没有看到任何修改。我已经尝试了很多使用正则表达式的迭代但却无法正常工作。
(我还应该提一下,如果我使用较大的样本同时运行我的所有代码,TM会中断,尽管在子样本中工作正常。我试图通过逐行运行来找出发生的位置line ...所以稍后可能会有另外一篇文章。)
任何想法/指导都赞赏!