对IMDB FTP数据标题类型进行排序

时间:2012-09-29 03:13:04

标签: ftp text-extraction imdb

我正在尝试使用他们使用IMDB ftp数据工作的电影来构建连接演员的图表。

但是我只想用电影(标题类型: - 故事片)作为连接。 我从IMDB下载了ftp数据。但是我无法从文件中提取标题类型。我想知道是否有任何机构试图根据标题类型对IMDB提供的ftp数据进行排序,以及它们是如何区分的。

1 个答案:

答案 0 :(得分:3)

标题本身会告诉您正在处理的节目类型。

  • 如果以“(电视)”结尾,则为电视电影(为电视制作的单集)。
  • 如果以“(V)”结尾,则为视频电影(直接播放视频)。
  • 如果被引号包围并以“(迷你)”结尾,那么它就是 tv mini系列。 (注意:我认为此类别不再存在于纯文本数据文件中)。
  • 如果只有被引号包围,那就是电视连续剧
  • 如果标题用引号包围,并以花括号中的其他标题结尾,那么它就是电视剧集(迷你或非迷你)系列< / em>(括号内有剧集的标题 - 如果已知 - 或#seasonNR.episodeNR或播出日期)。
  • 其他任何内容,都是电影

一个特殊情况是标有 {{SUSPENDED}} 的电视连续剧集,这意味着该剧集从未制作过,但它是有计划的,可能会在将来完成。

请注意,这些规则仅适用于可以从FTP服务器下载的纯文本数据文件。几年来,在网站上遵循不同的规则。

我已经做了很多关于这个主题的研究,作为IMDbPY的主要作者(顺便说一句:看一看,因为将这些信息导入SQL数据库可能对你有用) )。