应用错误收集

我目前正在尝试编写一个用于测试/学习目的的网站，该网站将围绕IMDB datasets that are dumped。

我无法确定将数据提取为更易于管理的格式的最佳方法。我需要从几个文件中提取数据：

这些表中的数据通过给每行的唯一名称链接。基本上，我需要使用唯一名称将每个文本文件的行连接在一起。执行此操作后，我将需要从实际唯一名称解析我需要的数据，因为未明确列出电影标题。唯一名称还指定条目是视频游戏还是电视节目，我不会为其收集数据。

从这些唯一名称限定符中提取数据很可能会成为正则表达式的噩梦，但我更关心的是将文本文件实际分组为可管理格式的最佳方法...我应该..

另外，仅movie.list文件包含超过100万行数据。

提前感谢您的帮助。

克里斯