我正在使用R studio对Pig拉丁语翻译进行编码,如何在翻译后处理相同的文本格式和标点符号

时间:2019-05-16 08:33:20

标签: r

我正在Rstudio中编码Pig拉丁语翻译器。翻译部分已经完成,但我需要知道如何将格式和标点从原始文本复制到已翻译的文本中。

例如:

  

您好,今天是:很美。

它将变为

  

Ellohay,oDatay isyay:Eautifulbay。

我试图读取文本文件。翻译之前,我需要处理标点符号和区分大小写。我使用下面的代码删除了标点符号,但是在阅读我的文本文件后无法使用。但是,当我用普通文本测试它时,它就可以工作。

gsub('[[:punct:] ]+',' ',txt)

#this one for case sensitivity but it is not working
if (grep("^A-Z", ignore.case=TRUE, value=TRUE, word)

# here is the main function
apply <- function(words){
  word <- strsplit(words, split = " ")[[1]]
  paste(sapply(word,pigLatinizer), collapse = " ")
}
# I am reading the text using
fileName <- "football.txt"
conn <- file(fileName, open="r")
linn <- readLines(conn)
apply(linn)

0 个答案:

没有答案