提取一串字符的部分

时间:2014-01-11 15:02:32

标签: r

我有一串字符(长度为311,522)。它是.txt格式,全部在一行上。可以找到数据文件here。我试着像这样将它导入R:

eya4_lagan_HM_cp <- read.table("C:/Documents and Settings/SS/Desktop/Sequence Segmentation/eya4_lagan_HM_cp.txt", quote="\"")

但是我收到了警告信息而且没有导入它。

我需要提取此字符串的部分内容。也就是说,我需要从44184提取到44216,意思是从第44184个字符(包括)到第44216个字符(包括),然后从151795到151844的字符序列,依此类推。

我该怎么做?

1 个答案:

答案 0 :(得分:1)

有关如何将文件读入字符串的信息,请参阅https://stackoverflow.com/questions/9068397/import-text-file-as-single-character-string,例如,您将使用:

fileName <- "C:/Documents and Settings/SS/Desktop/Sequence Segmentation/eya4_lagan_HM_cp.txt"
theData <- readChar(fileName, file.info(fileName)$size)

另请参阅readChar文档。

有关如何提取子字符串的信息,请参阅substr

在您的情况下,您可以使用例如:

mySubstr <- substr(theData, 44184, 44216)