如何从Microsoft Azure的Jupyter Notebook中的Kaggle读取文件?

时间:2019-07-16 06:38:49

标签: python jupyter kaggle

我在Microsoft Azure中使用 Jupyter Notebook 。由于无法在Azure中上传大文件,因此需要从链接中读取文件。我想读取的csv文件在Kaggle中。

我这样做:

!pip install kaggle

import os

os.environ['KAGGLE_USERNAME'] = "*********"

os.environ['KAGGLE_KEY'] = "*********"

import kaggle

但是我现在不知道如何读取文件。 在其他情况下,我使用熊猫来读取文件: file = pd.read_csv("file/link") 然后我可以清理和整理我的数据。 但这在这种情况下不起作用。 你能帮我吗?

我希望能够像pd.read_csv一样读取和操作数据,因为我在数据科学项目中需要它。 这是我希望能够使用的数据集:https://www.kaggle.com/START-UMD/gtd#globalterrorismdb_0718dist.csv

1 个答案:

答案 0 :(得分:0)

Kaggle 已经为其命令行API here提供了广泛的文档,该文档是使用 Python 构建的,可以找到源代码{{3} }因此,为了以Python方式使用Kaggle API,进行逆向工程非常简单。

假设您已经将用户名和密钥导出为环境变量

import os
os.environ['KAGGLE_USERNAME'] = '<kaggle-user-name>'
os.environ['KAGGLE_KEY'] = '<kaggle-key>'
os.environ['KAGGLE_PROXY'] = '<proxy-address>' ## skip this step if you are not working behind a firewall

或 您已成功从 Kaggle 帐户页面的API部分下载了kaggle.json,并将此JSON复制到了~/.kaggle/,即您的 Kaggle 配置目录中系统。

然后,您可以在 Jupyter 笔记本中使用以下代码将此数据集加载到 pandas 数据框:

  1. 导入库
import kaggle as kg
import pandas as pd

  1. 本地下载数据集
kg.api.authenticate()
kg.api.dataset_download_files(dataset="START-UMD/gtd", path='gt.zip', unzip=True)
  1. 读取下载的数据集
df = pd.read_csv('gt.zip/globalterrorismdb_0718dist.csv', encoding='ISO-8859-1')