我正在构建特定于域的问答系统。我想检测某个段落是否包含对该部分或其他部分中的表,图像或列表的引用,基本上是检测类似于“引用以下表格...”,“查看图像...”,“以打开显示器,按照步骤...进行操作。
答案 0 :(得分:0)
非常非常非常 非常 非常 开放式问题。这些问题不在SO上提倡。 Please see Stack Overflow guidelines on asking a good question.
如果您没有大量的训练数据,我将简单地创建一个基于规则的系统,该系统将在小文本窗口中匹配单词(在删除停用词并阻止词干之后)。请记住,在大多数简单情况下,实际上并不需要NLP或AI。
如果可能的话,我将从序列标签的角度考虑。这将需要大量的精力来准备训练数据。训练数据如下所示:
the trend is evident in the table below which is explained...
O O O BEGREF REF REF REF ENDREF O O O
但是请记住,这将需要大量数据。
一旦有了数据,您只需使用Mallet即可使用HMM或CRF进行训练。