标签: html solr metadata
可能重复: Extracting Metadata from Website
我在不同时间点从不同来源收集了4个Terra字节的WebPages(HTML和XML)。它们都有不同的模板,我想使用SOLR索引所有文档。
我有兴趣从所有文档中提取元数据,并以XML或JSON的形式将其放入索引和搜索。
有人可以建议我从所有这些文档中提取元数据的最佳方法,以便我可以拥有非常好的元数据,以后可以用于索引和搜索目的吗?