我有以下问题:
我知道我可以制作一个巨大的 if-cascade ,但我想这不仅难看且难以维护,而且还很慢。
什么是快速,易于维护的实现方式?或许某种查找表,或组合的矩阵?任何代码示例将不胜感激。我会使用Biojava,但我现在使用的当前版本不提供该功能(或者我还没有找到它......)。
更新:这里似乎有些混乱。共识符号是单个字符,表示两个序列中的单个字符。
String1和String2,例如“ACGT”和“ACCT” - 它们在位置2上不匹配。所以,我想要一个共识字符串为ACST,因为S代表“C或G”
我想制作一个这样的方法:
char getConsensus(char a, char b)
更新2 :如果我只有2个序列,一些建议的方法可以工作。我可能需要对这些“共识”进行多次迭代,因此输入字母表可能会从“ACGT”增加到“ACGTRYKMSWBDHVN”,这会使一些提议的方法难以编写和维护。
答案 0 :(得分:2)
您可以使用HashMap<String, String>
将冲突/差异映射到共识符号。您可以“硬编码”(填写应用程序代码)或在应用程序启动期间从某些外部源(文件,数据库等)填写它。然后,只要你有差异就可以使用它。
String consensusSymbol = consensusMap.get(differenceString);
编辑:以适应您的API请求;]
Map<String, Character> consensusMap; // let's assume this is filled somewhere
...
char getConsensus(char a, char b) {
return consensusMap.get("" + a + b);
}
我意识到这看起来很粗糙,但我认为你明白了。这可能比查找表略慢,但它也更容易维护。
另一个编辑:
如果你真的想要一些非常快的东西并且你实际使用char
类型,你可以创建一个2d表并用字符对其进行索引(因为它们被解释为数字)。
char lookup[][] = new char[256][256]; // all "english" letters will be below 256
//... fill it... e. g. lookup['A']['C'] = 'M';
char consensus = lookup['A']['C'];
答案 1 :(得分:2)
一个简单,快速的解决方案是使用按位或。
启动时,初始化两个表:
为单一职位达成共识:
这是一个简单的按位表示,可以帮助您入门:
private static final int A = 1 << 3;
private static final int C = 1 << 2;
private static final int G = 1 << 1;
private static final int T = 1 << 0;
设置第一个表的成员如下:
characterToBitwiseTable[ 'd' ] = A | G | T;
characterToBitwiseTable[ 'D' ] = A | G | T;
设置第二个表的成员如下:
bitwiseToCharacterTable[ A | G | T ] = 'd';
答案 2 :(得分:0)
可能的组合大约为20.因此,没有真正的性能问题。 如果你不想做一个大的if else块,最快的解决方案是构建一个Tree数据结构。 http://en.wikipedia.org/wiki/Tree_data_structure。这是做你想做的最快的方式。
在树中,您放置所有可能的组合,然后输入字符串并遍历树以查找符号的最长匹配序列
您想要一个插图示例吗?
PS :所有人工智能软件都使用最快,最适应的Tree apporach。
答案 3 :(得分:0)
鉴于它们都是独特的符号,我会选择Enum
:
public Enum ConsensusSymbol
{
A("A"), // simple case
// ....
GTUC("B"),
// etc
// last entry:
AGCTU("N");
// Not sure what X means?
private final String symbol;
ConsensusSymbol(final String symbol)
{
this.symbol = symbol;
}
public String getSymbol()
{
return symbol;
}
}
然后,当您遇到差异时,请使用.valueOf()
:
final ConsensusSymbol symbol;
try {
symbol = ConsensusSymbol.valueOf("THESEQUENCE");
} catch (IllegalArgumentException e) { // Unknown sequence
// TODO
}
例如,如果您将GTUC
视为字符串,Enum.valueOf("GTUC")
将返回GTUC
枚举值,并且对该值调用getSymbol()
将返回"B"
}。
答案 4 :(得分:0)
考虑一次读取多个序列 - 我会:
可能有些方法可以优化第二步和第一步。
答案 5 :(得分:0)
使用枚举的可能解决方案,受pablochan的启发,并提供biostar.stackexchange.com的一点输入:
enum lut {
AA('A'), AC('M'), AG('R'), AT('W'), AR('R'), AY('H'), AK('D'), AM('M'), AS('V'), AW('W'), AB('N'), AD('D'), AH('H'), AV('V'), AN('N'),
CA('M'), CC('C'), CG('S'), CT('Y'), CR('V'), CY('Y'), CK('B'), CM('M'), CS('S'), CW('H'), CB('B'), CD('N'), CH('H'), CV('V'), CN('N'),
GA('R'), GC('S'), GG('G'), GT('K'), GR('R'), GY('B'), GK('K'), GM('V'), GS('S'), GW('D'), GB('B'), GD('D'), GH('N'), GV('V'), GN('N'),
TA('W'), TC('Y'), TG('K'), TT('T'), TR('D'), TY('Y'), TK('K'), TM('H'), TS('B'), TW('W'), TB('B'), TD('D'), TH('H'), TV('N'), TN('N'),
RA('R'), RC('V'), RG('R'), RT('D'), RR('R'), RY('N'), RK('D'), RM('V'), RS('V'), RW('D'), RB('N'), RD('D'), RH('N'), RV('V'), RN('N'),
YA('H'), YC('Y'), YG('B'), YT('Y'), YR('N'), YY('Y'), YK('B'), YM('H'), YS('B'), YW('H'), YB('B'), YD('N'), YH('H'), YV('N'), YN('N'),
KA('D'), KC('B'), KG('K'), KT('K'), KR('D'), KY('B'), KK('K'), KM('N'), KS('B'), KW('D'), KB('B'), KD('D'), KH('N'), KV('N'), KN('N'),
MA('M'), MC('M'), MG('V'), MT('H'), MR('V'), MY('H'), MK('N'), MM('M'), MS('V'), MW('H'), MB('N'), MD('N'), MH('H'), MV('V'), MN('N'),
SA('V'), SC('S'), SG('S'), ST('B'), SR('V'), SY('B'), SK('B'), SM('V'), SS('S'), SW('N'), SB('B'), SD('N'), SH('N'), SV('V'), SN('N'),
WA('W'), WC('H'), WG('D'), WT('W'), WR('D'), WY('H'), WK('D'), WM('H'), WS('N'), WW('W'), WB('N'), WD('D'), WH('H'), WV('N'), WN('N'),
BA('N'), BC('B'), BG('B'), BT('B'), BR('N'), BY('B'), BK('B'), BM('N'), BS('B'), BW('N'), BB('B'), BD('N'), BH('N'), BV('N'), BN('N'),
DA('D'), DC('N'), DG('D'), DT('D'), DR('D'), DY('N'), DK('D'), DM('N'), DS('N'), DW('D'), DB('N'), DD('D'), DH('N'), DV('N'), DN('N'),
HA('H'), HC('H'), HG('N'), HT('H'), HR('N'), HY('H'), HK('N'), HM('H'), HS('N'), HW('H'), HB('N'), HD('N'), HH('H'), HV('N'), HN('N'),
VA('V'), VC('V'), VG('V'), VT('N'), VR('V'), VY('N'), VK('N'), VM('V'), VS('V'), VW('N'), VB('N'), VD('N'), VH('N'), VV('V'), VN('N'),
NA('N'), NC('N'), NG('N'), NT('N'), NR('N'), NY('N'), NK('N'), NM('N'), NS('N'), NW('N'), NB('N'), ND('N'), NH('N'), NV('N'), NN('N');
char consensusChar = 'X';
lut(char c) {
consensusChar = c;
}
char getConsensusChar() {
return consensusChar;
}
}
char getConsensus(char a, char b) {
return lut.valueOf("" + a + b).getConsensusChar();
}