有没有人有任何代码可以从可下载的imdb文本文件中提取数据并将它们转换为更有用的格式?文本文件不是立即可用的格式,并且在转换时有些问题。例如,business.list文件对于每个电影都是这样的,每个电影的一种多个标签(不同的标签和每个标签的数量)(一些具有较少的标签,一些具有更多标签)。
我正在寻找一种将这些文件更改为数据框的方法。
MV:The Clearing(2004)
GR:5,763,875美元(美国)(2004年10月10日) GR:5,761,124美元(美国)(2004年10月3日)
OW:618,674美元(美国)(2004年7月4日)(56个屏幕)
工作组:1,350美元(美国)(2004年10月10日)(2个屏幕)
更多信息请点击此处:http://www.imdb.com/interfaces
与此同时,我将讨论一些其他接口,例如文本unix one。