我在Microsoft Azure中使用 Jupyter Notebook 。由于无法在Azure中上传大文件,因此需要从链接中读取文件。我想读取的csv文件在Kaggle中。
我这样做:
!pip install kaggle
import os
os.environ['KAGGLE_USERNAME'] = "*********"
os.environ['KAGGLE_KEY'] = "*********"
import kaggle
但是我现在不知道如何读取文件。
在其他情况下,我使用熊猫来读取文件:
file = pd.read_csv("file/link")
然后我可以清理和整理我的数据。
但这在这种情况下不起作用。
你能帮我吗?
我希望能够像pd.read_csv一样读取和操作数据,因为我在数据科学项目中需要它。 这是我希望能够使用的数据集:https://www.kaggle.com/START-UMD/gtd#globalterrorismdb_0718dist.csv
答案 0 :(得分:0)
Kaggle 已经为其命令行API here提供了广泛的文档,该文档是使用 Python 构建的,可以找到源代码{{3} }因此,为了以Python方式使用Kaggle API,进行逆向工程非常简单。
假设您已经将用户名和密钥导出为环境变量
import os
os.environ['KAGGLE_USERNAME'] = '<kaggle-user-name>'
os.environ['KAGGLE_KEY'] = '<kaggle-key>'
os.environ['KAGGLE_PROXY'] = '<proxy-address>' ## skip this step if you are not working behind a firewall
或
您已成功从 Kaggle 帐户页面的API部分下载了kaggle.json
,并将此JSON复制到了~/.kaggle/
,即您的 Kaggle 配置目录中系统。
然后,您可以在 Jupyter 笔记本中使用以下代码将此数据集加载到 pandas 数据框:
import kaggle as kg
import pandas as pd
kg.api.authenticate()
kg.api.dataset_download_files(dataset="START-UMD/gtd", path='gt.zip', unzip=True)
df = pd.read_csv('gt.zip/globalterrorismdb_0718dist.csv', encoding='ISO-8859-1')