Question

我在Microsoft Azure中使用 Jupyter Notebook 。由于无法在Azure中上传大文件，因此需要从链接中读取文件。我想读取的csv文件在Kaggle中。

我这样做：

!pip install kaggle

import os

os.environ['KAGGLE_USERNAME'] = "*********"

os.environ['KAGGLE_KEY'] = "*********"

import kaggle

但是我现在不知道如何读取文件。在其他情况下，我使用熊猫来读取文件： file = pd.read_csv("file/link") 然后我可以清理和整理我的数据。但这在这种情况下不起作用。你能帮我吗？

我希望能够像pd.read_csv一样读取和操作数据，因为我在数据科学项目中需要它。这是我希望能够使用的数据集：https://www.kaggle.com/START-UMD/gtd#globalterrorismdb_0718dist.csv

Answer 1

Kaggle 已经为其命令行API here提供了广泛的文档，该文档是使用 Python 构建的，可以找到源代码{{3} }因此，为了以Python方式使用Kaggle API，进行逆向工程非常简单。

假设您已经将用户名和密钥导出为环境变量

import os
os.environ['KAGGLE_USERNAME'] = '<kaggle-user-name>'
os.environ['KAGGLE_KEY'] = '<kaggle-key>'
os.environ['KAGGLE_PROXY'] = '<proxy-address>' ## skip this step if you are not working behind a firewall

或您已成功从 Kaggle 帐户页面的API部分下载了kaggle.json，并将此JSON复制到了~/.kaggle/，即您的 Kaggle 配置目录中系统。

然后，您可以在 Jupyter 笔记本中使用以下代码将此数据集加载到 pandas 数据框：

导入库

import kaggle as kg
import pandas as pd

本地下载数据集

kg.api.authenticate()
kg.api.dataset_download_files(dataset="START-UMD/gtd", path='gt.zip', unzip=True)

读取下载的数据集

df = pd.read_csv('gt.zip/globalterrorismdb_0718dist.csv', encoding='ISO-8859-1')

如何从Microsoft Azure的Jupyter Notebook中的Kaggle读取文件？

1 个答案: