构建语法来描述具有相关元数据的文件名

时间:2019-06-06 12:39:32

标签: ebnf nearley

我有一堆要自动提取元数据的IMO通函。不幸的是,pdf元数据对这些不利。但是文件名是有意义的并且包含很多内容。

以下是示例列表:

Circular Letter No.1886-Rev.1 - Implementation Of Resolution A.600(15) - Imo Ship Identification NumberScheme.pdf
Circular Letter No.1886-Rev.2 - Implementation of resolution A.600(15) - IMO ship identification numberscheme.pdf
Circular Letter No.1886-Rev.3 - Implementation Of Resolution A.600(15) - Imo Ship Identification Number Scheme (Secretariat).pdf
Circular Letter No.1886-Rev.4 - Implementation Of Resolution A.600(15) - Imo Ship Identification NumberScheme (Secretariat).pdf
Circular Letter No.1886-Rev.5 - Implementation Of Resolution A.1078(28) - Imo Ship Identification Number Scheme (Secretariat).pdf
Circular Letter No.1886-Rev.6 - Implementation Of Resolution A.1078(28) - Imo Ship Identification Number Scheme (Secretariat).pdf
Circular Letter No.2047 - Subject Amendments to tables A-II1 and A-II2 of the Seafarers' Training, Certification and....pdf
Circular Letter No.2086 - Subject Operating Agreement on the International Mobile SatelliteOrganization (Inmarsat) -....pdf

当然比文件名有更大的变化,但这是一个很好的入门示例。

我想在EBNF或我可以与Nearley(https://nearley.js.org/)一起使用的其他常规语法中描述以下部分;

  1. 循环号
  2. 如果文档是修订版本号(在前6个示例中以-REV。表示)
  3. 标题-在修订号或通函号之后-
  4. 如果标题不完整,则以...结尾。

一旦我有了那个例子,我就可以构造其他需要的东西。

0 个答案:

没有答案