我将下载(用于语言处理的未来目的)数千个网页。现在我在想,我应该保存哪些元数据。我探索这个,但我不会忽视一些重要的东西。
<title>
<link>
<publish_date>
<date_downloaded>
<source> // to this page
<keyword> // for Solr indexing
<text> // cleaned body of page
有什么重要的东西,我将来可以错过吗?
答案 0 :(得分:1)
还有一些你可能会觉得有趣的事情: