从多个文件夹中读取实木复合地板文件到Sagemaker中时Jupyter内核快死了

时间:2019-11-01 17:57:02

标签: python amazon-s3 amazon-sagemaker pyarrow

我正在尝试从s3实木复合地板文件中读取大量数据到我的SageMaker笔记本实例中。我不确定jupyter笔记本需要处理的数据量是多少,因此当我通过同时提供一个包含多个镶木文件的文件夹一次尝试几个文件时,内核就会死掉。鉴于我以后需要加载更多数据来训练ML模型,是否还有其他方法可以解决?

到目前为止,我尝试了StackOverflow中建议的几种不同方法,但是由于我对AWS环境非常陌生,因此我自己很难解决问题。现在,下面的代码就是我正在运行的代码:


import s3fs
import pandas as pd
import boto3
import pyarrow.parquet as pq

# Creating an S3 Filesystem (Only required when using S3)

s3 = s3fs.S3FileSystem()
s3_path = "s3://my_bucket_name"
directory = 'path/to/folder'
print(f'{s3_path}/{directory}')

# Loading Files (S3)

data = pq.ParquetDataset(f'{s3_path}/{directory}', filesystem = s3, validate_schema=False).read_pandas().to_pandas()

尝试读取此类镶木地板文件时出现了很多错误,但现在当我尝试仅读取一个文件时似乎正在工作。我应该如何进行?

0 个答案:

没有答案