Question

我有一串字符（长度为311,522）。它是.txt格式，全部在一行上。可以找到数据文件here。我试着像这样将它导入R：

eya4_lagan_HM_cp <- read.table("C:/Documents and Settings/SS/Desktop/Sequence Segmentation/eya4_lagan_HM_cp.txt", quote="\"")

但是我收到了警告信息而且没有导入它。

我需要提取此字符串的部分内容。也就是说，我需要从44184提取到44216，意思是从第44184个字符（包括）到第44216个字符（包括），然后从151795到151844的字符序列，依此类推。

我该怎么做？

Answer 1

fileName <- "C:/Documents and Settings/SS/Desktop/Sequence Segmentation/eya4_lagan_HM_cp.txt"
theData <- readChar(fileName, file.info(fileName)$size)

另请参阅readChar文档。

有关如何提取子字符串的信息，请参阅substr。

在您的情况下，您可以使用例如：

mySubstr <- substr(theData, 44184, 44216)