我使用基于多种cf的Windows文件共享连接器来抓取文件。 但Manifold CF还会更新它读取的所有文件的lastAccessTime。
我想在不更新lastAccessTime的情况下阅读所有文件。
Manifold CF中哪些文件需要更新以及如何实现?
答案 0 :(得分:0)
ManifoldCF当前未维护使用其SharedDriveConnector爬网的共享文件的上次访问时间戳。它使用jcifs,它不支持读取或恢复被触摸文件的最后访问时间戳。
但是,正如您已经注意到的那样,Google Search Appliance(GSA)会以某种方式设法保留上次访问时间戳。所以它也应该可以用于ManifoldCF。
在GSA的第3版中,其文件系统连接器依赖于jcifs的修补版本。 (见github.com/googlegsa/filesystem.v3) 该版本的发行说明表明,连接器也能够保持时间戳。 (见Release Notes)
因此,通过使用谷歌的jcifs的修补版本,可以修补ManifoldCF以保留上次修改的时间戳。进一步讨论此类问题的最佳方式是将此要求发布到manifoldcf邮件列表 user@manifoldcf.apache.org ,或者在Issue Tracker
中打开功能请求更新2017-07-13 该功能在CONNECTORS-1429中进行了讨论,不会实施。
一个有趣的事实是,在版本4中,GSA远离了jcifs。相反,GSA连接器依赖于本机窗口设施。
另一个旁注:为了能够更新上次访问时间戳,用于爬网的用户需要写入基本属性权限。 (见GSA documentation)