下载网页时我应该保存哪些元数据?

时间:2010-04-12 17:07:37

标签: download solr web-crawler

我将下载(用于语言处理的未来目的)数千个网页。现在我在想,我应该保存哪些元数据。我探索这个,但我不会忽视一些重要的东西。

<title>
<link>
<publish_date>
<date_downloaded>
<source>  // to this page
<keyword> // for Solr indexing
<text>    // cleaned body of page

有什么重要的东西,我将来可以错过吗?

1 个答案:

答案 0 :(得分:1)

还有一些你可能会觉得有趣的事情:

  • 文档类型(是文章,宣传,登录页面等)
  • 字幕/标题/摘要
  • 图像位置(如果要在webapp中显示,则为图像的网址)
  • 作者
  • 部分(因此您可以在Solr查询中使用fq将结果限制为特定部分)