问题
给出航班电子机票中每个单词的(x,y)位置,提取航班号和相应的目的地/到达时间+日期。
我的第一次尝试
使用正则表达式查找航班号,日期和时间。然后将航班与正确的日期匹配。使用(x,y)位置的时间。这是通过我提出的一系列规则来完成的。问题在于,当我尝试使用各种电子票时,这些规则变得越来越复杂。
你会怎么做?我应该研究哪些主题?
答案 0 :(得分:0)
手写规则适用于此类内容,但您需要比简单正则表达式更好的工具。试用GATE框架及其 JAPE 规则引擎,它就像正则表达式一样,但运行所谓的注释(例如“token”,“word”,“noun”,“number” ,句子等)。
这里的GATE Manual将为您提供 - 快速介绍和深入的功能描述。请注意有关基本 JAPE 规则和 Gazeteers 的章节,这些章节基本上是包含大量预先包含的名称的词典,例如:城市,机场,人名等。