解释Hadoop示例中的专利数据集

时间:2013-12-13 10:04:12

标签: hadoop

我目前正在阅读行动书中的Hodoop,本书中最重要的例子是

4.1 Getting the patent data set 

我正在尝试获取一些CSV文件from this link而且我无法做到这一切我可以下载的是包含tpt文件的.zip文件。书中说有一些我无法获得的csv文件。更多我无法理解“专利引文数据” 如果有人读了这本书并且对这个例子有所了解,请帮忙。

提前致谢。

1 个答案:

答案 0 :(得分:2)

在下载链接所在的表中,有3个:plain txt,.tpt压缩文件和ASCII csv压缩文件,右边的那个。示例所需的2个文件是:acite75_99apat63_99

第一个文件只包含两个字段,第一个是专利的id,引用该专利的id为第二个字段。至于第二个文件,它包含有关每个专利的更多信息:授予年份,国家......