我有一堆要自动提取元数据的IMO通函。不幸的是,pdf元数据对这些不利。但是文件名是有意义的并且包含很多内容。
以下是示例列表:
Circular Letter No.1886-Rev.1 - Implementation Of Resolution A.600(15) - Imo Ship Identification NumberScheme.pdf
Circular Letter No.1886-Rev.2 - Implementation of resolution A.600(15) - IMO ship identification numberscheme.pdf
Circular Letter No.1886-Rev.3 - Implementation Of Resolution A.600(15) - Imo Ship Identification Number Scheme (Secretariat).pdf
Circular Letter No.1886-Rev.4 - Implementation Of Resolution A.600(15) - Imo Ship Identification NumberScheme (Secretariat).pdf
Circular Letter No.1886-Rev.5 - Implementation Of Resolution A.1078(28) - Imo Ship Identification Number Scheme (Secretariat).pdf
Circular Letter No.1886-Rev.6 - Implementation Of Resolution A.1078(28) - Imo Ship Identification Number Scheme (Secretariat).pdf
Circular Letter No.2047 - Subject Amendments to tables A-II1 and A-II2 of the Seafarers' Training, Certification and....pdf
Circular Letter No.2086 - Subject Operating Agreement on the International Mobile SatelliteOrganization (Inmarsat) -....pdf
当然比文件名有更大的变化,但这是一个很好的入门示例。
我想在EBNF或我可以与Nearley(https://nearley.js.org/)一起使用的其他常规语法中描述以下部分;
一旦我有了那个例子,我就可以构造其他需要的东西。