将kafka(kafka-python)转储到txt文件

时间:2017-09-01 13:56:30

标签: python apache-kafka kafka-python

我需要定期将kafka使用者的输出转储到excel文件中。我使用以下代码:

from kafka import KafkaConsumer
from kafka import KafkaProducer
import json,time
from xlutils.copy import copy    
from xlrd import open_workbook
import pandas

consumer = KafkaConsumer(bootstrap_servers='localhost:9092')
KafkaConsumer()
consumer.subscribe("test")

rowx=0
colx=0

for msg in consumer:
        book_ro = open_workbook("twitter.xls")
        book = copy(book_ro)  # creates a writeable copy
        sheet1 = book.get_sheet(0)  # get a first sheet
        sheet1.write(rowx,colx, msg[6])
        book.save("twitter.xls")

现在,我的问题是代码效率不高。对于我需要打开,写入,然后保存excel文件的每条消息。有没有办法打开excel一次,写入然后关闭它(对于一批消息而不是for循环)? TNX

1 个答案:

答案 0 :(得分:0)

是的,打开,写入,保存和关闭每条消息都是低效的,您可以批量执行此操作。但仍然需要在消费循环中这样做。

msg_buffer = []
buffer_size = 100
for msg in consumer:
        msg_buffer.append(msg[6])
        if len(msg_buffer) >= buffer_size:
            book_ro = open_workbook("twitter.xls")
            book = copy(book_ro)  # creates a writeable copy
            for _msg in msg_buffer:
                sheet1 = book.get_sheet(0)  # get a first sheet
                sheet1.write(rowx,colx, _msg)
            book.save("twitter.xls")
            msg_buffer = []

你可能认为这比nobatch快100倍。

更新评论:

是的,通常我们会永远停留在这个循环中,它在内部使用poll来获取新消息,发送心跳和提交偏移量。如果您的目标是消耗此主题的消息并保存消息,那么它应该是一个长时间运行的循环。

这是kafka-python设计,你应该像这样使用消息或使用consumer.poll()。

至于为什么你可以使用for msg in consumer:,因为使用者是一个迭代器对象,它的类实现__iter____next__,它的底层使用一个fetcher来获取记录。您可以参考的更多实施细节https://github.com/dpkp/kafka-python/blob/master/kafka/consumer/group.py