我有两组蛋白质序列数据。如您所见,这2个序列看起来相同,但实际上它们之间有1个不同的氨基酸(字母)。
例如:
文件1:
TV*TV*TV*TISTI*VWGKIGIRIE*PWIVSISEVESVACNSKNSNNNSE*K**FSEHFDLNYEN*K
文件2:
TV*TV*TV*TISTI*VWGKIGIRIE*PWIVSISVVESVACNSKNSNNNSE*K**FSEHFDLNYEN*K
期望的输出:
文件1:
E
文件2:
V
我知道我们可以使用grep,comm,diff命令从两组数据中打印出不同的模式;搜索基于线。但在这种情况下,我如何打印这两种模式之间不同的字母?感谢。
答案 0 :(得分:2)
我认为你不需要person test
a 1
a 2
a 3
a 4
a 5
b 1
b 2
b 3
b 4
b 5
模块。只需一个循环就可以修复你的代码。
re
您的输出是:file1='TV*TV*TV*TISTI*VWGKIGIRIE*PWIVSISEVESVACNSKNSNNNSE*K**FSEHFDLNYEN*K'
file2='TV*TV*TV*TISTI*VWGKIGIRIE*PWIVSISVVESVACNSKNSNNNSE*K**FSEHFDLNYEN*K'
for i in range(len(file1)):
if(file1[i]!=file2[i]):
print(file1[i]),(file2[i])
在这里,我们逐字母地比较文件。
答案 1 :(得分:0)
For循环:
test_two_strings <- function(string1 = file1, string2 = file2){
for(i in 1:nchar(file1)){
if (substr(file1, i, i) != substr(file2,i, i)){
cat(paste("File 1:", substr(file1, i, i) ,"File 2:", substr(file2, i, i),sep = "\n"))
break()
}
}
}
microbenchmark(test_two_strings(), times = 1000)
VUnit: microseconds
expr min lq mean median uq max neval
test_two_strings() 133.927 144.199 169.5508 148.544 160.791 2132.148 1000
答案 2 :(得分:-1)
你也可以试试这个,我用两个字符串进行比较,如果条件失败我在字符串之间检查。
str1 ="TV*TV*TV*TISTI*VWGKIGIRIE*PWIVSESsVESVACNSKNSNNNSE*K**FSEHFDLNYEN*K"
str2 ="TV*TV*TV*TISTI*VWGKIGIRIE*PWIVSVSsVESVACNSKNSNNNSE*K**FSEHFDLNYEN*K"
for i in range(len(str1)/2):
if(str1[i:i+2] != str2[i:i+2]):
if (str1[i:i+1] != str2[i:i+1]):
str1[i:i+1]+"\n"+str1[i+1:i+2]
else:
print str1[i+1:i+2]+"\n"+str2[i+1:i+2]