我目前正在阅读行动书中的Hodoop,本书中最重要的例子是
4.1 Getting the patent data set
我正在尝试获取一些CSV文件from this link而且我无法做到这一切我可以下载的是包含tpt文件的.zip文件。书中说有一些我无法获得的csv文件。更多我无法理解“专利引文数据” 如果有人读了这本书并且对这个例子有所了解,请帮忙。
提前致谢。
答案 0 :(得分:2)
在下载链接所在的表中,有3个:plain txt,.tpt压缩文件和ASCII csv压缩文件,右边的那个。示例所需的2个文件是:acite75_99和apat63_99
第一个文件只包含两个字段,第一个是专利的id,引用该专利的id为第二个字段。至于第二个文件,它包含有关每个专利的更多信息:授予年份,国家......