我正在浏览Hadoop中的专利数据示例。 您能详细解释一下正在使用的数据集吗?
专利引用数据集
该数据集包含引用和引用专利的两列。 引用列是指提交专利的所有者ID? Cited 列是指构成第二个数据集密钥的专利ID吗?
专利说明数据集
此数据集中有多个字段。
要形成这两个数据集的映射,是否在第二个数据集第一列中具有相应键的第一个数据集中引用或引用列(专利)?
答案 0 :(得分:1)
让我们先了解一些与专利相关的术语。
什么是引用?
引文是在一个文档中链接在一起的文档 提到另一个人有相关内容
请参阅此link以了解有关专利的更多信息:)
专利引文数据集" - 该数据集仅提及专利引用。
更像是说专利A使用专利B,C和D
“理由”,”引”
3858241,956203
3858241,1324234
3858241,3398406
3858241,3557384
3858241,3634889
3858242,1515701
3858242,3319261
3858242,3668705
3858242,3707004
从书中粘贴复制品,所以此处专利号为3858242引用(使用/参考)其他4项专利, 专利号3858241引用(使用/指代)其他5项专利
专利说明数据集 - 有点像主表,它只保存每项专利的数据。
希望能为你解决一些问题。
答案 1 :(得分:0)
我想在解决HiA书中的Top K记录时遇到了误解,见4.7节,其中说: “Top K记录 - 更改AttributeMax.py(或AttributeMax.php)以输出整个记录而不是仅输出maximumvalue。重写它以使MapReduce作业输出具有前K值而不是最大值的记录。”
要使用的输入数据集实际上是apat63_99.txt文件,练习要求记录的前K值(CLAIMS)而不是最大值。清单4.6中描述的AttributeMax.py给出了最大索赔的记录。