我目前正在尝试编写一个用于测试/学习目的的网站,该网站将围绕IMDB datasets that are dumped。
我无法确定将数据提取为更易于管理的格式的最佳方法。我需要从几个文件中提取数据:
这些表中的数据通过给每行的唯一名称链接。基本上,我需要使用唯一名称将每个文本文件的行连接在一起。执行此操作后,我将需要从实际唯一名称解析我需要的数据,因为未明确列出电影标题。唯一名称还指定条目是视频游戏还是电视节目,我不会为其收集数据。
从这些唯一名称限定符中提取数据很可能会成为正则表达式的噩梦,但我更关心的是将文本文件实际分组为可管理格式的最佳方法...我应该..
另外,仅movie.list文件包含超过100万行数据。
提前感谢您的帮助。
克里斯
答案 0 :(得分:1)
在数据库服务器上暂存表,将数据清理到最终表中。
如果这意味着加载回客户端应用程序进行处理,那就这样吧。
实际上,数据库服务器将处理数据量,但SQL Server可能不是最适合您处理的数据。