我正在创建一个PHP应用程序,允许用户使用Solr搜索文件以支持搜索。这主要是因为该应用程序需要对Word文档和PDF进行内容搜索。该应用程序还使用MySql数据库来跟踪文件。
我认为最好的方法是对所有文件进行初步索引(可能大约为20,000)是编写一个PHP脚本,循环遍历特定目录中的所有文件,将每个文件添加到Solr索引并创建一个记录它在我的数据库中。
问题是文件本身不包含需要编入索引的所有数据。一旦使用Solr Cell索引文件名,内容,作者等,我需要应用程序的用户能够添加额外的元数据,例如标签和类别。
据我所知,如果用户要将此数据添加到MySql数据库,则无法使用额外数据更新Solr,而不会覆盖已编入索引的数据(内容等)。
所以我的问题是,一旦Solr索引了一个文件,我怎么能在Solr Cell提取器中无法从文件本身检索索引中添加额外的元数据?