我正在尝试运行一些生物信息学软件(TE Displayer),但它根本不起作用。我认为问题可能在于软件如何识别FASTA标头。据说这是文件。
标题行中的序列标识符采用“\ w(1,10)\ d(2,9)”的模式,表示“单词字符(1-10)后跟数字(2-9)”,所以尽量避免标题行中的非标识符短语(例如“Build04”)。例如,标题行“> OrganismX Accession AC000282,build0.4”是好的,但不是“> OrganismX Contig WX000282,Build04”。因此,“Oryza sativa Chromosome11”也会很好,因为“Chromosome11”将被识别为标识符。
有人可以解释“\ w(1,10)\ d(2,9)”的确切用法我理解为总共最多12个字符的任何单词,但它必须以两位数结尾。所以我不明白Build0.4如何正常,而Build04不是很好。
干杯!
答案 0 :(得分:5)
单独的序列标识符应与模式匹配,因此在">OrganismX Accession AC000282, build0.4"
中,AC000282
必须与正则表达式匹配,而不是Build0.4
。
\w(1,10)\d(2,9)
表示匹配一到十个单词字符,即a-z A-Z 0-9 _
中的任意一个,后跟两到九位数字。
因为Build04
将与该模式匹配并且它不是序列标识符,所以建议避免使用。
<{1}}与该模式不匹配,因为它包含build0.4
,所以没关系。
答案 1 :(得分:1)
要扩展MikeM所说的话 -
您正在尝试让脚本识别AC000282
。
上面的正则表达式将识别该字符序列。
序列标识符\w(1,10)\d(2,9)
表示“查找1到10个字符后跟2到9个字符的字符。
然后正则表达式将标识Build04
,因为有5个单词字符(BUILD)后跟2位数字符(04),但它不会将Build0.4
标识为.
Build0.4
告诉正则表达式它不会被使用。