适应IMDb数据集的消失

时间:2017-08-20 08:50:06

标签: amazon-s3 dataset imdb

因此,免费提供的IMDb datasets将于2017年底消失。

根据我的理解,你必须:

  • 表明自己(为所有访问注册个人帐户)
  • 付钱(一旦免费配额用完,但实际价格可能微不足道)
  • 编写代码(虽然看起来你正在下载.gz文件,所以可能很简单)

由此产生了一些问题:

  1. 数据格式是什么样的?页面上有一个简短的例子,但有没有人有一个实际的文件显示标题,年份,投票等的格式和链接方式?
  2. 如果你不想接受这种政权,你有什么选择?某处是否有免费提供的数据集副本?还有哪些免费提供的电影数据库,至少涵盖所有电影和电视剧,自2017年以来发布的兴趣最低。

2 个答案:

答案 0 :(得分:2)

谈论付费墙

新文件大约相当于360兆字节的数据,因此根据我对S3定价的理解,除非您每月下载多次,否则您将完全免于上限。

数据格式是什么样的?

它们似乎是数据库表的转储。

作为一个例子,这里是title.basics.tsv.gz:

的开头
tconst  titleType       primaryTitle    originalTitle   isAdult startYear       endYear runtimeMinutes  genres
tt0000001       short   Carmencita      Carmencita      0       1894    \N      1       Documentary,Short
tt0000002       short   Le clown et ses chiens  Le clown et ses chiens  0       1892    \N      5       Animation,Short
tt0000003       short   Pauvre Pierrot  Pauvre Pierrot  0       1892    \N      4       Animation,Comedy,Romance
tt0000004       short   Un bon bock     Un bon bock     0       1892    \N      \N      Animation,Short

可用文件是:title.basics.tsv.gz,title.crew.tsv.gz,title.episode.tsv.gz,title.principals.tsv.gz,title.ratings.tsv.gz和name。 basics.tsv.gz

就所包含的数据而言,这些是每个文件中的字段:

name.basics.tsv.gz
nconst primaryName birthYear deathYear primaryProfession knownForTitles

title.basics.tsv.gz
tconst titleType primaryTitle originalTitle isAdult startYear endYear runtimeMinutes genres

title.crew.tsv.gz
tconst directors writers

title.episode.tsv.gz
tconst parentTconst seasonNumber episodeNumber

title.principals.tsv.gz
tconst principalCast

title.ratings.tsv.gz
tconst averageRating numVotes

谈到每个文件中的行数,我们目前(2017-080-21)有:

name.basics.tsv.gz 8086560
title.basics.tsv.gz 4466246
title.crew.tsv.gz 4466246
title.episode.tsv.gz 2934335
title.principals.tsv.gz 3957899
title.ratings.tsv.gz 757412

如果您不想接受这种制度,您有什么选择?

我担心的并不多。 但如果价格是唯一的问题,请参见上文。

我对this thread on the imdbpy-devel mailing list

所有关于新格式的调查结果都是如此

还有哪些免费提供的电影资料库

我认为最好的选择是https://www.themoviedb.org/http://www.omdbapi.com/,但我对这两种情况都不太熟悉。

答案 1 :(得分:0)

我首先抓住旧式文本文件并使用IMDBpy构建数据库,然后从这些新文件中更新它。 IMDBpy可能已经支持此了。