我正在使用tm
和topicmodels
软件包实现LDA主题模型。某些文档包含未自动删除的奇数字符(例如docs <- tm_map(docs, removePunctuation
不会删除’
。当我将.txt文件读入R时,例如欧元符号€显示为{ {1}}。整个语料库中还有其他奇怪的字符经常出现,需要手动删除。因此,我使用以下几行来完成:
€
我的问题是,一旦我关闭R脚本并重新打开它,这些奇数符号就会改变。而不是docs <- tm_map(docs, toSpace, "’")
docs <- tm_map(docs, toSpace, "‐")
docs <- tm_map(docs, toSpace, "–")
docs <- tm_map(docs, toSpace, "€")
docs <- tm_map(docs, toSpace, "’")
sript节目’
,而不是'
它显示’
。因此,当我关闭并重新打开R脚本时,符号不会从文本中删除,我必须手动将这些符号更改为每次重新打开脚本时所需的符号。我将这些行复制到Word文档中,每次重新打开R脚本时,我都会将Word文档中的行粘贴到R脚本中。这是非常低效的。所以我想知道有没有办法让我保存R脚本,以便重新打开后这些奇怪的符号不会丢失?或者也许我应该用我原来的.txt文件做些什么?谢谢!