我们可以直接将 WARC 文件索引到Solr而无需从WARC文件中提取和存储某些中间文件(例如 html 格式)先在硬盘上?
换句话说,我们可以索引这些文件而不在硬盘上存储任何内容吗?
答案 0 :(得分:2)
我们已经为此开发了Web Archive Discovery工具箱。它使用Apache Tika,并将其与WARC / ARC阅读器和其他一些实用程序结合在一起,并生成合适的记录并将其发布到Solr。
quick start应该可以帮助您。
答案 1 :(得分:0)
您应该在客户端上执行此操作,因为不清楚您希望这些文件使用哪种架构。然后,您可以以流式方式将内容扩展到内存中,如果需要,可以使用客户端Tika处理内容,并将您想要的任何文档表示发送给Solr。