我正在从事Azure数据仓库项目。我想阅读大量的非结构化文本并将其转换为信息并将其发送到sql 假设我有一条消息文本,该文本会在设备向服务器发送新消息时附加。
我有一条带有该设备的客户BP消息。 设备还以非结构形式发送diff类型的消息。 因此,在阅读消息后,我知道我需要的信息是在消息中的某些文本(例如“ BP Info”)之后,然后是值 我在该文本中搜索了“ BP信息”。 我完成了代码,并在分割字符串后使用了for循环。
我写下了简单的python代码,但我想知道如何以pyspark方式进行操作 当我们在rdds中保存数据时
for row in df_source_data.rdd.collect():
db=row.message_ext
arryTodb1=db.split('</x>')
d=0
for item1 in arryTodb1:
---
---
dataToDB.append(appending to array)