如何在pyspark中转换非结构化数据

时间:2020-05-14 05:02:40

标签: pyspark azure-databricks

我正在从事Azure数据仓库项目。我想阅读大量的非结构化文本并将其转换为信息并将其发送到sql 假设我有一条消息文本,该文本会在设备向服务器发送新消息时附加。

我有一条带有该设备的客户BP消息。 设备还以非结构形式发送diff类型的消息。 因此,在阅读消息后,我知道我需要的信息是在消息中的某些文本(例如“ BP Info”)之后,然后是值 我在该文本中搜索了“ BP信息”。 我完成了代码,并在分割字符串后使用了for循环。

我写下了简单的python代码,但我想知道如何以pyspark方式进行操作 当我们在rdds中保存数据时

for row in df_source_data.rdd.collect():
  db=row.message_ext
  arryTodb1=db.split('</x>')
  d=0
  for item1 in arryTodb1:
  ---
  ---
   dataToDB.append(appending to array)

0 个答案:

没有答案