将夜间IMDB转储组织成结构化数据

时间:2009-02-13 22:56:58

标签: .net sql import

我目前正在尝试编写一个用于测试/学习目的的网站,该网站将围绕IMDB datasets that are dumped

我无法确定将数据提取为更易于管理的格式的最佳方法。我需要从几个文件中提取数据:

  • movies.list =所有电影和制作年份的电影列表
  • mpaa-ratings-reasons.list = MPAA评级
  • running-times.list =运行时间

这些表中的数据通过给每行的唯一名称链接。基本上,我需要使用唯一名称将每个文本文件的行连接在一起。执行此操作后,我将需要从实际唯一名称解析我需要的数据,因为未明确列出电影标题。唯一名称还指定条目是视频游戏还是电视节目,我不会为其收集数据。

从这些唯一名称限定符中提取数据很可能会成为正则表达式的噩梦,但我更关心的是将文本文件实际分组为可管理格式的最佳方法...我应该..

  1. 将数据拉入SQL服务器上的临时表,然后在我的应用程序中单独编写一个部分来连接表并将所有内容拉到一起?
  2. 将文本文件中的行加载到.NET数据表中并按此方式进行处理?
    1. 这样做,我是否会为运行此应用程序的盒子造成内存噩梦?
  3. 其他一些替代方案?
  4. 另外,仅movie.list文件包含超过100万行数据。

    提前感谢您的帮助。

    克里斯

1 个答案:

答案 0 :(得分:1)

在数据库服务器上暂存表,将数据清理到最终表中。

如果这意味着加载回客户端应用程序进行处理,那就这样吧。

实际上,数据库服务器将处理数据量,但SQL Server可能不是最适合您处理的数据。