应用错误收集

我正在从事Azure数据仓库项目。我想阅读大量的非结构化文本并将其转换为信息并将其发送到sql 假设我有一条消息文本，该文本会在设备向服务器发送新消息时附加。

我有一条带有该设备的客户BP消息。设备还以非结构形式发送diff类型的消息。因此，在阅读消息后，我知道我需要的信息是在消息中的某些文本（例如“ BP Info”）之后，然后是值我在该文本中搜索了“ BP信息”。我完成了代码，并在分割字符串后使用了for循环。

我写下了简单的python代码，但我想知道如何以pyspark方式进行操作当我们在rdds中保存数据时

for row in df_source_data.rdd.collect():
  db=row.message_ext
  arryTodb1=db.split('</x>')
  d=0
  for item1 in arryTodb1:
  ---
  ---
   dataToDB.append(appending to array)

如何在pyspark中转换非结构化数据

0 个答案: