批量获取大熊猫数据框而无需重复吗?

时间:2020-08-17 22:29:51

标签: python pandas dataframe generator

我已经与其他几个人一起研究了以下StackOverflow answer,可能会因为感到犯了错误而无法确切地找出位置,对此我可能会感到厌倦。我基本上想将pandas数据帧分成多个块,然后通过JSON逐段发送到API端点。我不希望同一行被发送多次。我的问题在以下过程的第4步中。

可复制的示例

第1步:创建数据框

^/home/

第1步输出

# Dataframe Creation

import numpy as np
import pandas as pd

filenames = ["file_"+str(x) for x in np.arange(1, 11)]
languages = ['en', 'en', 'fr', 'en', 'en', 'en', 'es', 'en', 'fr', 'en']

test_df = pd.DataFrame({'file': filenames, 'lang': languages})

第2步-两个功能

file    lang
0   file_1  en
1   file_2  en
2   file_3  fr
3   file_4  en
4   file_5  en
5   file_6  en
6   file_7  es
7   file_8  en
8   file_9  fr
9   file_10 en

步骤3-测试get_chunk_df函数的输出-可以

def get_chunk_df(large_df, splits):
    """splits df into chunks"""
    for chunk_df in np.array_split(large_df, splits):
        yield chunk_df


def get_json_chunks(df, splits):
    """converts each chunk to a dict which is basically going to be a JSON load"""
    documents = {"documents": []}
    df_chunks = get_chunk_df(df, splits)
    for chunk_df in df_chunks:
        for idx, row in chunk_df.iterrows():
            documents["documents"].append({
                "id": str(idx + 1),
                "text": row["lang"]
            })
        yield documents

第3步输出

chunk_gen = get_chunk_df(test_df, 3)
counter = 0
for chk in chunk_gen:
    counter = counter + 1
    print(f"***********PRINTING {counter} CHUNK...")
    print(chk)

第4步-我的问题在这里

***********PRINTING 1 CHUNK...
     file lang
0  file_1   en
1  file_2   en
2  file_3   fr
3  file_4   en
***********PRINTING 2 CHUNK...
     file lang
4  file_5   en
5  file_6   en
6  file_7   es
***********PRINTING 3 CHUNK...
      file lang
7   file_8   en
8   file_9   fr
9  file_10   en

第4步输出

json_chunks = get_json_chunks(test_df, 3)

for json_chk in json_chunks:
    print(f"First row: {json_chk['documents'][0]}")
    print(f"Last row: {json_chk['documents'][-1]}")

但是我希望预期的输出为:

First row: {'id': '1', 'text': 'en'}
Last row: {'id': '4', 'text': 'en'}
First row: {'id': '1', 'text': 'en'}
Last row: {'id': '7', 'text': 'es'}
First row: {'id': '1', 'text': 'en'}
Last row: {'id': '10', 'text': 'en'}

谢谢!

1 个答案:

答案 0 :(得分:1)

您可以在documents = {"documents": []}循环之前创建for,然后append创建相同的documents,但是必须在{{1}内创建新的documents }-循环

for