应用错误收集

解释手册中的段落

时间：2013-02-27 19:50:16

标签： regex bioinformatics fasta

我正在尝试运行一些生物信息学软件（TE Displayer），但它根本不起作用。我认为问题可能在于软件如何识别FASTA标头。据说这是文件。

标题行中的序列标识符采用“\ w（1,10）\ d（2,9）”的模式，表示“单词字符（1-10）后跟数字（2-9）”，所以尽量避免标题行中的非标识符短语（例如“Build04”）。例如，标题行“＆gt; OrganismX Accession AC000282，build0.4”是好的，但不是“＆gt; OrganismX Contig WX000282，Build04”。因此，“Oryza sativa Chromosome11”也会很好，因为“Chromosome11”将被识别为标识符。

有人可以解释“\ w（1,10）\ d（2,9）”的确切用法我理解为总共最多12个字符的任何单词，但它必须以两位数结尾。所以我不明白Build0.4如何正常，而Build04不是很好。

干杯！

2 个答案:

答案 0 :(得分：5)

单独的序列标识符应与模式匹配，因此在">OrganismX Accession AC000282, build0.4"中，AC000282必须与正则表达式匹配，而不是Build0.4。

\w(1,10)\d(2,9)表示匹配一到十个单词字符，即a-z A-Z 0-9 _中的任意一个，后跟两到九位数字。

因为Build04将与该模式匹配并且它不是序列标识符，所以建议避免使用。 <{1}}与该模式不匹配，因为它包含build0.4，所以没关系。

答案 1 :(得分：1)

要扩展MikeM所说的话 - 您正在尝试让脚本识别AC000282。上面的正则表达式将识别该字符序列。序列标识符\w(1,10)\d(2,9)表示“查找1到10个字符后跟2到9个字符的字符。然后正则表达式将标识Build04，因为有5个单词字符（BUILD）后跟2位数字符（04），但它不会将Build0.4标识为. Build0.4告诉正则表达式它不会被使用。