解释手册中的段落

时间:2013-02-27 19:50:16

标签: regex bioinformatics fasta

我正在尝试运行一些生物信息学软件(TE Displayer),但它根本不起作用。我认为问题可能在于软件如何识别FASTA标头。据说这是文件。

  

标题行中的序列标识符采用“\ w(1,10)\ d(2,9)”的模式,表示“单词字符(1-10)后跟数字(2-9)”,所以尽量避免标题行中的非标识符短语(例如“Build04”)。例如,标题行“> OrganismX Accession AC000282,build0.4”是好的,但不是“> OrganismX Contig WX000282,Build04”。因此,“Oryza sativa Chromosome11”也会很好,因为“Chromosome11”将被识别为标识符。

有人可以解释“\ w(1,10)\ d(2,9)”的确切用法我理解为总共最多12个字符的任何单词,但它必须以两位数结尾。所以我不明白Build0.4如何正常,而Build04不是很好。

干杯!

2 个答案:

答案 0 :(得分:5)

单独的序列标识符应与模式匹配,因此在">OrganismX Accession AC000282, build0.4"中,AC000282必须与正则表达式匹配,而不是Build0.4

\w(1,10)\d(2,9)表示匹配一到十个单词字符,即a-z A-Z 0-9 _中的任意一个,后跟两到九位数字。

因为Build04将与该模式匹配并且它不是序列标识符,所以建议避免使用。 <{1}}与该模式不匹配,因为它包含build0.4,所以没关系。

答案 1 :(得分:1)

要扩展MikeM所说的话 - 您正在尝试让脚本识别AC000282。 上面的正则表达式将识别该字符序列。 序列标识符\w(1,10)\d(2,9)表示“查找1到10个字符后跟2到9个字符的字符。 然后正则表达式将标识Build04,因为有5个单词字符(BUILD)后跟2位数字符(04),但它不会将Build0.4标识为. Build0.4告诉正则表达式它不会被使用。