从飞机eticket提取时间,日期,航班#

时间:2014-04-14 14:35:44

标签: machine-learning nlp

问题

给出航班电子机票中每个单词的(x,y)位置,提取航班号和相应的目的地/到达时间+日期。

我的第一次尝试

使用正则表达式查找航班号,日期和时间。然后将航班与正确的日期匹配。使用(x,y)位置的时间。这是通过我提出的一系列规则来完成的。问题在于,当我尝试使用各种电子票时,这些规则变得越来越复杂。

  • 例如," A320"可能是爱琴海航空公司(A3)航班20"或者无关紧要的"空中客车A320"。
  • 另一个例子:" 320P"可能是时间,下午3:20,或者它可能是电子机票中出现的无关代码的一部分。

你会怎么做?我应该研究哪些主题?

1 个答案:

答案 0 :(得分:0)

手写规则适用于此类内容,但您需要比简单正则表达式更好的工具。试用GATE框架及其 JAPE 规则引擎,它就像正则表达式一样,但运行所谓的注释(例如“token”,“word”,“noun”,“number” ,句子等)。

这里的GATE Manual将为您提供 - 快速介绍和深入的功能描述。请注意有关基本 JAPE 规则和 Gazeteers 的章节,这些章节基本上是包含大量预先包含的名称的词典,例如:城市,机场,人名等。