如何阅读pyspark avro文件并提取值?

时间:2015-07-07 06:34:15

标签: python pyspark

如何阅读pyspark中的twitter.avro文件并从中提取值?

rdd=sc.textFile("twitter.asvc")运作良好

但是当我做的时候

rdd1=sc.textFile("twitter.avro")
rdd1.collect()

我的输出低于

  

['的OBJ \ X01 \ X02 \ x16avro.schema \ X04 {"类型":"记录""名称":&#34 ;发作""命名空间":" testing.hive.avro.serde""字段":[{"名称&#34 ;: "标题""类型":"串""文档":"插曲   标题"},{"名称":" AIR_DATE""类型":"串""文档&#34 ;:"初始   日期"},{"名称":"医生""类型":" INT""文档&#34 ;:"主演员演奏   剧集博士"}]} \ x00kR \ x03LS \ x17m |] Z ^ {0 \ x10 \ x04"第十一   小时\ x183 2010年4月\ x16"医生的妻子\ x1614 2011年5月\ x16&恐怖   方岩的一部分1977年9月3日\ x08 $一个不可思议的孩子11月23日   1963年\ x02 *神秘的星球1986年9月6日\ x0c \ x08Rose \ x1a26   2005年3月\ x12.Daleks的力量\ x1e5 11月   1966年\ x04 \ x14Castrolava \ x1c4 1982年1月',' kR \ x03LS \ x17m |] Z ^ {0']

是否有用于阅读此格式的python库?

1 个答案:

答案 0 :(得分:1)

您应该使用特定于Avro文件的FileInputFormat。

不幸的是我没有使用python,因此我只能将您链接到解决方案。您可以查看:https://github.com/apache/spark/blob/master/examples/src/main/python/avro_inputformat.py

最有趣的部分是这一个:

<td>
<button>Edit</button>
<button onclick="Delete();">Delete</button>
</td>