因此,免费提供的IMDb datasets将于2017年底消失。
根据我的理解,你必须:
由此产生了一些问题:
答案 0 :(得分:2)
谈论付费墙
新文件大约相当于360兆字节的数据,因此根据我对S3定价的理解,除非您每月下载多次,否则您将完全免于上限。
数据格式是什么样的?
它们似乎是数据库表的转储。
作为一个例子,这里是title.basics.tsv.gz:
的开头tconst titleType primaryTitle originalTitle isAdult startYear endYear runtimeMinutes genres
tt0000001 short Carmencita Carmencita 0 1894 \N 1 Documentary,Short
tt0000002 short Le clown et ses chiens Le clown et ses chiens 0 1892 \N 5 Animation,Short
tt0000003 short Pauvre Pierrot Pauvre Pierrot 0 1892 \N 4 Animation,Comedy,Romance
tt0000004 short Un bon bock Un bon bock 0 1892 \N \N Animation,Short
可用文件是:title.basics.tsv.gz,title.crew.tsv.gz,title.episode.tsv.gz,title.principals.tsv.gz,title.ratings.tsv.gz和name。 basics.tsv.gz
就所包含的数据而言,这些是每个文件中的字段:
name.basics.tsv.gz
nconst primaryName birthYear deathYear primaryProfession knownForTitles
title.basics.tsv.gz
tconst titleType primaryTitle originalTitle isAdult startYear endYear runtimeMinutes genres
title.crew.tsv.gz
tconst directors writers
title.episode.tsv.gz
tconst parentTconst seasonNumber episodeNumber
title.principals.tsv.gz
tconst principalCast
title.ratings.tsv.gz
tconst averageRating numVotes
谈到每个文件中的行数,我们目前(2017-080-21)有:
name.basics.tsv.gz 8086560
title.basics.tsv.gz 4466246
title.crew.tsv.gz 4466246
title.episode.tsv.gz 2934335
title.principals.tsv.gz 3957899
title.ratings.tsv.gz 757412
如果您不想接受这种制度,您有什么选择?
我担心的并不多。 但如果价格是唯一的问题,请参见上文。
我对this thread on the imdbpy-devel mailing list
所有关于新格式的调查结果都是如此还有哪些免费提供的电影资料库
我认为最好的选择是https://www.themoviedb.org/和http://www.omdbapi.com/,但我对这两种情况都不太熟悉。
答案 1 :(得分:0)
我首先抓住旧式文本文件并使用IMDBpy构建数据库,然后从这些新文件中更新它。 IMDBpy可能已经支持此了。