我有一串字符(长度为311,522)。它是.txt格式,全部在一行上。可以找到数据文件here。我试着像这样将它导入R:
eya4_lagan_HM_cp <- read.table("C:/Documents and Settings/SS/Desktop/Sequence Segmentation/eya4_lagan_HM_cp.txt", quote="\"")
但是我收到了警告信息而且没有导入它。
我需要提取此字符串的部分内容。也就是说,我需要从44184提取到44216,意思是从第44184个字符(包括)到第44216个字符(包括),然后从151795到151844的字符序列,依此类推。
我该怎么做?
答案 0 :(得分:1)
有关如何将文件读入字符串的信息,请参阅https://stackoverflow.com/questions/9068397/import-text-file-as-single-character-string,例如,您将使用:
fileName <- "C:/Documents and Settings/SS/Desktop/Sequence Segmentation/eya4_lagan_HM_cp.txt"
theData <- readChar(fileName, file.info(fileName)$size)
另请参阅readChar文档。
有关如何提取子字符串的信息,请参阅substr。
在您的情况下,您可以使用例如:
mySubstr <- substr(theData, 44184, 44216)