所以我有一组数据here(注意:忽略第一行,第二行的数据集)。总共有311,522个字符。我希望将它导入R,使得每个单个字符在一个单元格中,所以我最终得到一个311,522乘1列向量。但是,当我将数据复制到文本文件然后将其导入R时,每一行都被识别为一个单独的“字符”,而我最终得到一个列向量,其中每个条目是整行而不是单个字符。
我怎样才能解决这个问题?
答案 0 :(得分:1)
只需使用readLines
和strsplit
即可。这在R:
x <- readLines("Your_Actual_URL_Here")
检查是否有垃圾:
head(x)
# [1] ""
# [2] "<PRE>"
# [3] ">hg19_knownGene_uc003qec.4 range=chr6:133551736-133863257 5'pad=0 3'pad=0 strand=+ repeatMasking=none"
# [4] "AGGGAGAGGAGTATCTTGTCTTGGGGAGGGTGGAGACAGACAACCATTTC"
# [5] "TGTTTTTGTTATATTGAATTGTACATCTTCCTAGGCATAAATACTCTTCA"
# [6] "TGATTTCAGGCCAGGTCCAAATGATACCTCCTACATTCCTTCAGCTGGAA"
tail(x)
# [1] "CTTGCTTTTCACAAAAAGAGATCCAAGAGGAAGAGGTGGAGCAAGCTAGC"
# [2] "AAGAGAGCACCCAAGATGGAAGCTGCAGTCTTTTACCCTAACCTCAGAAG"
# [3] "TGGTGTACCTTTTGCCATATGCCATTTGTCATATAGCTCAAGCATGGTAC"
# [4] "AGTGTGGGAGGGGGCTACATGGGATGTTAATACCAGGATGCAGGGGATCG"
# [5] "CTGGGGCTACTTTGGAGGCTGG"
# [6] "</PRE>"
所以,我们希望从第四行到一个小于向量的长度:
y <- unlist(strsplit(x[4:(length(x)-1)], ""), use.names=FALSE)
head(y)
# [1] "A" "G" "G" "G" "A" "G"
tail(y)
# [1] "G" "G" "C" "T" "G" "G"
length(y)
# [1] 311522