native python - 用于循环的数据帧,并将记录插入到db

时间:2018-06-17 04:48:30

标签: python python-2.7 pyspark

我正在使用AWS Glue,因此我目前无法使用Pandas / Numpy等。

我有一个记录数据框,我需要处理并更新到mysql数据库。我需要检查记录的可用性并且已经存在,执行插入...复制键。出于这个原因,我需要使用本机python库遍历数据帧。我发现的所有数据帧迭代器都在使用pandas,但有没有办法没有pandas?

请在此处找到示例数据框:

df1 = sqlContext.createDataFrame([
    ('4001','81A01','Portland, ME','NY'),
    ('4002','44444','Portland, ME','NY'),
    ('4022','33333','BANGALORE','KA'),
    ('5222','88888','CHENNAI','TN')],
    ("zip_code_new", "territory_code_new", "territory_name_new", "state_new"))

我尝试了以下操作,但收到了错误消息,&#34; AttributeError:&#39; DataFrame&#39;对象没有属性&#39; <&strong>&#34;

for i in df1.values():
    print i

UPDATE :以下代码似乎与本机python一起循环遍历数据帧。此外,psidom的代码也应该可以工作,但我看不到打印结果。

arr = df1.collect()
  for r in arr:
      print r.zip_code_new

由于

1 个答案:

答案 0 :(得分:1)

你不能在火花数据帧上使用for循环;它有<script> (function() { $('.datepicker').datepicker(); }); </script> 方法循环遍历行;例如,我们可以按如下方式在每行中打印foreach

zip_code_new