我在哪里可以找到包含情节和流派的电影数据集?

时间:2017-10-22 14:53:37

标签: nlp dataset

我打算根据电影情节制作电影类型分类器。我正在寻找一个包含电影情节和流派的数据库。我试图获取IMDB自己的数据集,但它的付费也没有电影情节。感谢您的帮助,我们将不胜感激。

4 个答案:

答案 0 :(得分:3)

我写了一篇博文,我曾经使用过IMDB语料库,语料库仍然可用,并为每部电影包含一个情节和它匹配的可能类型。你可以在这里得到它:

http://davidsbatista.net/blog/2017/04/01/document_classification/

答案 1 :(得分:0)

CMU电影摘要语料库 此页面提供指向电影情节摘要和相关元数据的数据集的链接。这些数据由David Bamman,Brendan O' Connor和Noah Smith在卡内基梅隆大学语言技术研究所和机器学习部门收集。 试试这个:http://www.cs.cmu.edu/~ark/personas/

答案 2 :(得分:0)

IMDB并没有为其他网站上的DMCA删除费用付出代价,因此Kaggle的优秀人才创建了这个https://www.kaggle.com/tmdb/tmdb-movie-metadata(由TMDB提供支持)。

这是https://www.kaggle.com/sohier/getting-imdb-kernels-working-with-tmdb-data/

上TMDB元数据的示例内核

也可以从https://www.themoviedb.org/documentation/api

访问TMDB API

答案 3 :(得分:0)

quanteda的数据库包含电影和评论,对您有帮助吗?

require(quanteda, warn.conflicts = FALSE, quietly = TRUE)
data(data_corpus_movies, package = "quanteda.corpora")