R脚本中的奇数符号在重新加载后丢失

时间:2018-03-31 14:40:38

标签: r tm topic-modeling rscript topicmodels

我正在使用tmtopicmodels软件包实现LDA主题模型。某些文档包含未自动删除的奇数字符(例如docs <- tm_map(docs, removePunctuation不会删除。当我将.txt文件读入R时,例如欧元符号€显示为{ {1}}。整个语料库中还有其他奇怪的字符经常出现,需要手动删除。因此,我使用以下几行来完成:

€

我的问题是,一旦我关闭R脚本并重新打开它,这些奇数符号就会改变。而不是docs <- tm_map(docs, toSpace, "’") docs <- tm_map(docs, toSpace, "‐") docs <- tm_map(docs, toSpace, "–") docs <- tm_map(docs, toSpace, "€") docs <- tm_map(docs, toSpace, "’") sript节目,而不是'它显示’。因此,当我关闭并重新打开R脚本时,符号不会从文本中删除,我必须手动将这些符号更改为每次重新打开脚本时所需的符号。我将这些行复制到Word文档中,每次重新打开R脚本时,我都会将Word文档中的行粘贴到R脚本中。这是非常低效的。所以我想知道有没有办法让我保存R脚本,以便重新打开后这些奇怪的符号不会丢失?或者也许我应该用我原来的.txt文件做些什么?谢谢!

0 个答案:

没有答案