我有一个包含序列的文本文件。例如:
GGGGGGGGAACCCCCCCCCCTTGGGGGGGGGGGGGGGGAACCCCCCCCCCTTGGGGGGGG
我写了下面的DCG来找到AA和TT之间的序列。
:- use_module(library(pio)).
:- use_module(library(dcg/basics)).
:- portray_text(true).
process(Xs) :- phrase_from_file(find(Xs), 'string.txt').
anyseq([]) -->[].
anyseq([E|Es]) --> [E], anyseq(Es).
begin --> "AA".
end -->"TT".
find(Seq) -->
anyseq(_),begin,anyseq(Seq),end, anyseq(_).
我查询并得到:
?- process(Xs).
Xs = "CCCCCCCCCC" ;
Xs = "CCCCCCCCCCTTGGGGGGGGGGGGG...CCCCC" ;
Xs = "CCCCCCCCCC" ;
false.
但我不希望它找到第二个或类似的解决方案。只有一对AA和TT之间的解决方案并非所有组合。我有一种感觉,我可以在库dcg基础上使用string_without
和string
,但我不明白如何使用它们。
答案 0 :(得分:3)
你的anyseq // 1与库中的字符串// 1相同(dcg / basics),并且共享相同的问题'。
为了保持控制,我会在分隔符之间引入一个'状态:
elem(E) --> begin, string(E), end, !.
begin --> "AA".
end -->"TT".
find(Seq) -->
anyseq(_),elem(Seq).
anyseq([]) -->[].
anyseq([E|Es]) --> [E], anyseq(Es).
process(Xs) :-
phrase(find(Xs), `GGGGGGGGAACCCCCCCCCCTTGGGGGGGGGGGGGGGGAACCCCC+++CCCCCTTGGGGGGGG`,_).
现在我得到了
?- process(X).
X = "CCCCCCCCCC" ;
X = "CCCCC+++CCCCC" ;
false.
请注意匿名var作为短语/ 3的最后一个参数:它需要适应“控制流程”的变化。由更严格的模式引起:elem // 1 不后跟anyseq // 1,因为任何两个序列都是共享' anyseq // 1会有问题。
最后,你应该改变你的语法,用正确的递归语法收集elem // 1 ....
答案 1 :(得分:2)
首先,让我建议您最有可能歪曲问题,至少如果这是关于mRNA序列的话。在那里,碱基发生在三联体或密码子中,起点是甲硫氨酸或甲硫氨酸,但最后是三种不同的三联体。所以很可能你想使用这样的表示法。
可以使用all_seq//2
,if_/3
,(=)/3
来定义其间的序列:
mRNAseq(Cs) -->
[methionine],
all_seq(\C^maplist(dif(C),[amber,ochre,opal]), Cs),
( [amber] | [ochre] | [opal]).
或:
mRNAseq(Cs) -->
[methionine],
all_seq(list_without([amber,ochre,opal]), Cs),
( [amber] | [ochre] | [opal]).
list_without(Xs, E) :-
maplist(dif(E), Xs).
但回到你的文字陈述,以及关于陈述性名称的问题。 anyseq
和seq
的含义基本相同。
% :- set_prolog_flag(double_quotes, codes). % pick this
:- set_prolog_flag(double_quotes, chars). % or pick that
... --> [] | [_], ... .
seq([]) -->
[].
seq([E|Es]) -->
[E],
seq(Es).
mRNAcontent(Cs) -->
...,
"AA",
seq(Cs),
"TT",
{no_TT(Cs)}, % restriction
... .
no_TT([]).
no_TT([E|Es0]) :-
if([E] = "T",
( Es0 = [F|Es], dif([F],"T") ),
Es0 = Es),
no_TT(Es).
no_TT/1
的含义是:列表中没有序列"TT"
,也没有"T"
。因此,no_TT("T")
也会失败,因为它可能会与后续"TT"
!
那么为什么使用纯粹的单调定义是个好主意呢?您很可能会想要添加限制。纯粹的单调形式,限制是无害的。但是在另一个答案中建议的程序版本中,您将获得完全不同的结果,而不受任何限制。