在文档处理期间,我想从html元数据中提取所有日期,然后确定将用于填充日期字段的最新日期(dtgeneric1)。
<meta name="OriginalPublicationDate" content="2010/04/21 12:06:36" />
<meta name="LastModificationDate" content="2010/04/22 14:10:16" />
+ other non-date meta data
使用间谍阶段进行检查表明我们的管道已经添加了meta_ *属性,但不同来源的文档中的元数据名称会有所不同。
#### ATTRIBUTE meta_originalpublicationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/21 12:06:36
#### ATTRIBUTE meta_lastmodificationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/22 14:10:16
+ other non-date meta attributes
理想情况下,我们希望将所有meta_ *属性传递给Python阶段,并使用它来计算哪些是日期,哪些是最大的,但似乎没有办法将“所有元属性”指定为输入。 / p>
有没有人做过类似的事情,并且可以就最佳方式提供任何建议。
由于
尼尔
答案 0 :(得分:0)
我认为自定义阶段将所有需要的日期属性作为输入,处理所有日期属性之间的比较(以查找最新日期),并输出最新的字段将完成工作。< / p>