我在RSTUDIO中导入了一个包含多行和几列(字母数字值)的.csv,其中包含ä
等表达式,用于德语'ä'。
接下来我想做一些文本挖掘,但首先我必须用'ae'替换所有ä
表达式。 (或同样ü
与'ue')
我查找了像gsub,regmatches等类似的命令...但我不明白:-(
我只是想找到一种方法来搜索所有ü
表达式并用“ä”或“ae”替换它们......
任何人都可以帮助我吗?感谢
答案 0 :(得分:1)
如何使用gsub的一个简单示例,它应该可以帮助您入门。
我们首先创建一个简短的字符向量。
characters <- c("a small phrase", "a longer phrase", "a", "word")
观察每个gsub命令如何更改向量。
gsub("a", "", characters)
gsub("a ", "", characters)
gsub("phrase", "something", characters)
第一个参数指定您要查找的内容,第二个参数指定您要替换它的内容,第三个参数指出您应用它的对象。
然后我们可以通过将gsub的输出分配给它来更改字符对象。
characters <- gsub("phrase", "something", characters)
现在,当我们运行characters
时,我们得到:
[1] "a small something" "a longer something" "a" "word"
此外,除非你真的需要使用拉丁字符,否则你最好使用拉丁语等效(ae),因为并非所有R函数都具有很好的unicode支持。