应用错误收集

我正在使用'tm'软件包来清理和挖掘与电子香烟相关的大量社交媒体帖子，作为对输出运行主成分分析的前提，以确定关键主题。我删除了标点符号，这导致了很多'e cig'和'e liquid'参考资料，我需要将它们组合成'ecig'和'eliquid'。

我很难制定一贯运行的功能。当我处理帖子的子样本（n = 40）时，这很有效：

fun6＆lt; - function（x）{gsub（“e cig”，“ecig”，x）}

tmp1＆lt; - tm_map（tmp，content_transformer（fun6），lazy = TRUE）

但是，我现在正试图在更大的文件上运行转换（n = 100,000 +帖子）并且它不起作用。我运行它，检查，并没有看到任何修改。我已经尝试了很多使用正则表达式的迭代但却无法正常工作。

（我还应该提一下，如果我使用较大的样本同时运行我的所有代码，TM会中断，尽管在子样本中工作正常。我试图通过逐行运行来找出发生的位置line ...所以稍后可能会有另外一篇文章。）

任何想法/指导都赞赏！