在Prolog DCG中,如何删除一般解决方案?

时间:2015-07-06 13:40:04

标签: prolog swi-prolog dcg

我有一个包含序列的文本文件。例如:

GGGGGGGGAACCCCCCCCCCTTGGGGGGGGGGGGGGGGAACCCCCCCCCCTTGGGGGGGG

我写了下面的DCG来找到AA和TT之间的序列。

:- use_module(library(pio)).
:- use_module(library(dcg/basics)).
:- portray_text(true).

process(Xs) :- phrase_from_file(find(Xs), 'string.txt').

anyseq([]) -->[].
anyseq([E|Es]) --> [E], anyseq(Es).

begin --> "AA".
end -->"TT".

find(Seq) -->
     anyseq(_),begin,anyseq(Seq),end, anyseq(_).

我查询并得到:

?- process(Xs).
 Xs = "CCCCCCCCCC" ;
 Xs = "CCCCCCCCCCTTGGGGGGGGGGGGG...CCCCC" ;
 Xs = "CCCCCCCCCC" ;
false.

但我不希望它找到第二个或类似的解决方案。只有一对AA和TT之间的解决方案并非所有组合。我有一种感觉,我可以在库dcg基础上使用string_withoutstring,但我不明白如何使用它们。

2 个答案:

答案 0 :(得分:3)

你的anyseq // 1与库中的字符串// 1相同(dcg / basics),并且共享相同的问题'。

为了保持控制,我会在分隔符之间引入一个'状态:

elem(E) --> begin, string(E), end, !.

begin --> "AA".
end -->"TT".

find(Seq) -->
     anyseq(_),elem(Seq).

anyseq([]) -->[].
anyseq([E|Es]) --> [E], anyseq(Es).

process(Xs) :-
   phrase(find(Xs), `GGGGGGGGAACCCCCCCCCCTTGGGGGGGGGGGGGGGGAACCCCC+++CCCCCTTGGGGGGGG`,_).

现在我得到了

?- process(X).
X = "CCCCCCCCCC" ;
X = "CCCCC+++CCCCC" ;
false.

请注意匿名var作为短语/ 3的最后一个参数:它需要适应“控制流程”的变化。由更严格的模式引起:elem // 1 后跟anyseq // 1,因为任何两个序列都是共享' anyseq // 1会有问题。

最后,你应该改变你的语法,用正确的递归语法收集elem // 1 ....

答案 1 :(得分:2)

首先,让我建议您最有可能歪曲问题,至少如果这是关于mRNA序列的话。在那里,碱基发生在三联体或密码子中,起点是甲硫氨酸或甲硫氨酸,但最后是三种不同的三联体。所以很可能你想使用这样的表示法。

可以使用all_seq//2if_/3(=)/3来定义其间的序列:

mRNAseq(Cs) -->
   [methionine],
   all_seq(\C^maplist(dif(C),[amber,ochre,opal]), Cs),
   ( [amber] | [ochre] | [opal]).

或:

mRNAseq(Cs) -->
   [methionine],
   all_seq(list_without([amber,ochre,opal]), Cs),
   ( [amber] | [ochre] | [opal]).

list_without(Xs, E) :-
   maplist(dif(E), Xs).

但回到你的文字陈述,以及关于陈述性名称的问题。 anyseqseq的含义基本相同。

% :- set_prolog_flag(double_quotes, codes).   % pick this
:- set_prolog_flag(double_quotes, chars).     % or pick that

... --> [] | [_], ... .

seq([]) -->
   [].
seq([E|Es]) -->
   [E],
   seq(Es).

mRNAcontent(Cs) -->
   ...,
   "AA",
   seq(Cs),
   "TT",
   {no_TT(Cs)},  % restriction
   ... .

no_TT([]).
no_TT([E|Es0]) :-
   if([E] = "T",
      ( Es0 = [F|Es], dif([F],"T") ),
      Es0 = Es),
   no_TT(Es).

no_TT/1的含义是:列表中没有序列"TT",也没有"T"。因此,no_TT("T")也会失败,因为它可能会与后续"TT"

发生冲突

那么为什么使用纯粹的单调定义是个好主意呢?您很可能会想要添加限制。纯粹的单调形式,限制是无害的。但是在另一个答案中建议的程序版本中,您将获得完全不同的结果,而不受任何限制。