这是语料库
mov eax, buffer
mov al, [eax]
我要提取的是abcdef
abcd
xabcd
b
bcef
ef
aef
,abcd
,然后我尝试计算所有n-gram:
ef
我的问题是如何区分abcdef 1
abcd 3
abc 3
...
与abcd
和abcdef
,因为abc
只出现一次,而abcdef
是&的子字符串#39; ABCD&#39 ;.当然,我可以用这两个条件进行过滤,但只是想知道解决这个问题的任何现有算法目标,还是python中的包?
我知道如何在python中计算n-gram,所以我的问题更多的是如何区分abc
与abcd
和abcdef
而不是如何计算。但是如果你知道任何以解决这个NLP问题为目标的python包,那么很高兴知道:)
答案 0 :(得分:0)
将此问题中的字母视为POS的标签。鉴于已经解析为POS的句子,这可以被认为是语法提取问题。
我不确定NLTK
或Python
中的其他图书馆是否处理此问题。但我认为你可以自己搜索文献并实现简单的提取。
希望这有帮助。