应用错误收集

从Web页面提取元数据

时间：2012-03-23 06:40:13

标签： html solr metadata

可能重复：
Extracting Metadata from Website

我在不同时间点从不同来源收集了4个Terra字节的WebPages（HTML和XML）。它们都有不同的模板，我想使用SOLR索引所有文档。

我有兴趣从所有文档中提取元数据，并以XML或JSON的形式将其放入索引和搜索。

有人可以建议我从所有这些文档中提取元数据的最佳方法，以便我可以拥有非常好的元数据，以后可以用于索引和搜索目的吗？

0 个答案:

没有答案