检测文本中对表格和图像的引用。

时间:2018-10-09 07:52:11

标签: parsing nlp text-mining text-processing text-parsing

我正在构建特定于域的问答系统。我想检测某个段落是否包含对该部分或其他部分中的表,图像或列表的引用,基本上是检测类似于“引用以下表格...”,“查看图像...”,“以打开显示器,按照步骤...进行操作。

1 个答案:

答案 0 :(得分:0)

非常非常非常 非常 非常 开放式问题。这些问题不在SO上提倡。 Please see Stack Overflow guidelines on asking a good question.

如果您没有大量的训练数据,我将简单地创建一个基于规则的系统,该系统将在小文本窗口中匹配单词(在删除停用词并阻止词干之后)。请记住,在大多数简单情况下,实际上并不需要NLP或AI。

如果可能的话,我将从序列标签的角度考虑。这将需要大量的精力来准备训练数据。训练数据如下所示:

the trend is evident in the table below which is explained... 
 O    O   O  BEGREF  REF REF REF  ENDREF O    O    O

但是请记住,这将需要大量数据。

一旦有了数据,您只需使用Mallet即可使用HMM或CRF进行训练。