使用熊猫导入数据集

时间:2019-03-26 15:50:02

标签: python python-3.x pandas

我从github(json)导入了一个数据集,该文件夹包含许多子文件夹,在这些子文件夹下有许多文档文件,但是现在我已将数据集下载到本地驱动器中,不知道如何从本地驱动器导入数据集文件夹。我确实有关于使用pandas导入csv文件的知识,但是由于我的数据集是一个如上所述的文件夹。有人可以告诉我如何在不损害以下代码的情况下从我的本地驱动器导入它。当然我正在使用python。请检查显示从github导入的数据集的代码。 “ 20_newsgroup”是本地驱动器中文件夹的名称。

# Import Dataset
df = pd.read_json('https://raw.githubusercontent.com/selva86/datasets/master/newsgroups.json')
df = df.loc[df.target_names.isin(['soc.religion.christian', 'rec.sport.hockey', 'talk.politics.mideast', 'rec.motorcycles']) , :]
print(df.shape)  #> (2361, 3)
df.head()

# Convert to list
data = df.content.values.tolist()
data_words = list(sent_to_words(data))
print(data_words[:1])

2 个答案:

答案 0 :(得分:0)

df = pd.read_json('newsgroups.json')

就足够了。 (或者pd.read_json('some/directory/newsgroups.json')不在当前目录中。)

答案 1 :(得分:0)

从目录中上传多个文件方面,我想这是否可以回答您的问题:https://stackoverflow.com/a/30540662/9524722

相关问题