应用错误收集

我有一个简短的问题。我正在研究一个学校项目，我需要解析一个非常大的文本文件。这是一个数据库类，所以我需要从文件中获取唯一的actor名称，因为actor将是mysql数据库中的主键。我已经编写了解析器并且效果很好，但当时我忘了删除重复项。所以，我决定最简单的方法是创建一个演员arraylist。（使用ArrayList ADT）然后在我将其打印到新文本文件之前，使用contains（）方法检查actor名称是否在arraylist中。如果是我什么也不做，如果不是我将它添加到arraylist并打印到页面。现在该程序运行速度极慢。在arraylist之前，花了大约5分钟。旧的actor文件是180k，没有删除重复项。到目前为止它已经运行了30分钟和12k。（这次我总共期待100k-150k。）

我把arraylist的大小留空了，因为我不知道文件中有多少个演员，但至少有1-2百万。我想的只是为其大小投入500万并检查它是否完全得到它们。（简单地检查一下最后的arraylist索引，如果是空的，它没有用完空间。）这会减少时间，因为arraylist不会不断加倍并重新覆盖所有内容吗？还有另一种比这更快的方法吗？我也担心我的电脑在完成之前可能会耗尽内存。任何建议都会很棒。

（我也尝试在文本文件上运行'unique'命令但没有成功。演员名称每行打印1个。（在一列中）我想也许这个命令错了。你怎么会删除重复项在windows或linux命令提示符下的文本文件列？）谢谢你，并且很抱歉这篇长篇文章。我明天会中期并且开始变得紧张。

Java-解析一个大文本文件

3 个答案: