在我的项目中,我必须使用Java遍历文件。它的想法是处理基因组数据并将其输出到新文件。
以下是我们必须经历的几行数据的示例:
cure for cancer protein
ATGCCACTATGGTAG
captain picard hair growth protein
ATgCCAACATGgATGCCcGATAtGGATTgA
bogus protein
CCATt-AATgATCa-CAGTt
我正在努力地从逻辑上解释该区域的名称(“癌症蛋白的治疗”)与以下字符序列之间的矛盾。我可以使该文件轻松显示所有信息,但是我需要对字符序列进行与区域名称不同的处理,并且我不知道如何从逻辑上确定该行是区域名称还是序列。
任何帮助将不胜感激。
答案 0 :(得分:0)
使用RegExp怎么样?我认为您可以定义的是,您的行仅包含[ATGC-]
。