例如,假设我有这样的文字:
LOCATION, Text goes on
LOCATION U.S. investigators goes on
LOCATION/LOCATION First Last's goes on
LOCATION (AB) -- The Stack Overflow goes on
WHITE PLAINS, N.Y. (AB) -- Text goes on
PUEBLO, Colo. (AB) -- Text goes on
我如何制定算法来确定LOCATION和文章文本之间的界限?
该算法应该是灵活的,因为有许多格式的日期行正在使用中。
我知道这可以通过算法来完成,因为即使在随机化字符之后边界也可以清楚地区分。
SYAEIDUA, Tuqw gzce ox
QOZHANEPAD G.L. qisuxhen aodien
ADFD/QOIEYTYE Qidne Opaidh's wien aidnen
QIUEHN (XC) -- Ehd Towneyd Apenaid goeis he
IQUEN AOIEND, B.I. (OG) -- Qien oane px
OIQHNED, Qien. (PA) -- Nwne oaien pdxdaf
我能看到的唯一困惑是在第二种情况下,G.L。可以代表美国和部分主要文本,或者是城市缩写的一部分,而不是主要文本的一部分。 e.g。
WASHINGTON D.C. Government officials on Monday...
(Government officials on Monday...)
NEW YORK U.S. Government's latest statement...
(U.S. Government's latest statement...)
NEW YORK A.B. Conglomerate's CEO said on Monday...
(A.B. Conglomerate's CEO said on Monday...)
这是正则表达式不足的地方,因为它不能使用查找表或类似的来区分这两种情况。我不能只在U.S.
中硬编码作为一个特例(参见第三种情况)。
有什么想法吗?