如何获得由nutch + solr检索和索引的文档的最后修改时间或创建时间?

时间:2018-10-15 17:23:28

标签: solr web-crawler document nutch last-modified

我是否需要获取某些内部网下文档的最后修改时间或创建时间? 我尝试使用Metadata.LAST_MODIFIED字段,但返回了null。一世 在显示我的搜索结果时需要它们。日期返回的是爬行的日期。 我在这方面经验不足,因此欢迎您提供任何帮助!非常感谢你。 问候, 亚历克斯

2 个答案:

答案 0 :(得分:0)

您测试的URL很可能没有返回Last-Modified响应标头。大多数网页不返回此信息。由于它位于您的Intranet中,因此建议您使用某些工具(例如Chrome开发者工具的网络监视器)对其进行测试,以查看标头是否实际返回。

答案 1 :(得分:0)

我在这里找到了一个可能的答案,但这并不是我要寻找的答案,它比这个要复杂得多,但对其他人可能会有帮助: www.ryanpfister.com/2009/04/how-to-sort-by-date-with-nutch /