Question

我将下载（用于语言处理的未来目的）数千个网页。现在我在想，我应该保存哪些元数据。我探索这个，但我不会忽视一些重要的东西。

<title>
<link>
<publish_date>
<date_downloaded>
<source>  // to this page
<keyword> // for Solr indexing
<text>    // cleaned body of page

有什么重要的东西，我将来可以错过吗？

Answer 1

还有一些你可能会觉得有趣的事情：