从Web页面提取元数据

时间:2012-03-23 06:40:13

标签: html solr metadata

  

可能重复:
  Extracting Metadata from Website

我在不同时间点从不同来源收集了4个Terra字节的WebPages(HTML和XML)。它们都有不同的模板,我想使用SOLR索引所有文档。

我有兴趣从所有文档中提取元数据,并以XML或JSON的形式将其放入索引和搜索。

有人可以建议我从所有这些文档中提取元数据的最佳方法,以便我可以拥有非常好的元数据,以后可以用于索引和搜索目的吗?

0 个答案:

没有答案