如何阅读pyspark中的twitter.avro文件并从中提取值?
rdd=sc.textFile("twitter.asvc")
运作良好
但是当我做的时候
rdd1=sc.textFile("twitter.avro")
rdd1.collect()
我的输出低于
['的OBJ \ X01 \ X02 \ x16avro.schema \ X04 {"类型":"记录""名称":&#34 ;发作""命名空间":" testing.hive.avro.serde""字段":[{"名称&#34 ;: "标题""类型":"串""文档":"插曲 标题"},{"名称":" AIR_DATE""类型":"串""文档&#34 ;:"初始 日期"},{"名称":"医生""类型":" INT""文档&#34 ;:"主演员演奏 剧集博士"}]} \ x00kR \ x03LS \ x17m |] Z ^ {0 \ x10 \ x04"第十一 小时\ x183 2010年4月\ x16"医生的妻子\ x1614 2011年5月\ x16&恐怖 方岩的一部分1977年9月3日\ x08 $一个不可思议的孩子11月23日 1963年\ x02 *神秘的星球1986年9月6日\ x0c \ x08Rose \ x1a26 2005年3月\ x12.Daleks的力量\ x1e5 11月 1966年\ x04 \ x14Castrolava \ x1c4 1982年1月',' kR \ x03LS \ x17m |] Z ^ {0']
是否有用于阅读此格式的python库?
答案 0 :(得分:1)
您应该使用特定于Avro文件的FileInputFormat。
不幸的是我没有使用python,因此我只能将您链接到解决方案。您可以查看:https://github.com/apache/spark/blob/master/examples/src/main/python/avro_inputformat.py
最有趣的部分是这一个:
<td>
<button>Edit</button>
<button onclick="Delete();">Delete</button>
</td>