我需要解析一些已知的文件格式,其中一种是CUSCAR格式,我坚信RegEx会完成这项工作,有什么建议吗?
答案 0 :(得分:2)
我只是查看了CUSCAR规范,我认为你会得到一些非常难看的正则表达式代码来解析它。如果你只解析它的一部分,你可以逃脱它。你必须测试速度,因为你的主要瓶颈是I / O.
我使用来自QWEST的供应商文件做了类似的事情。这些野兽是分层文本文件。解析那些糟透了!我目前正在创建和解析每个(每天)4到5千万行的文本文件。
有一个名为FileHelpers Library的漂亮框架。该框架将帮助您创建记录的面向对象表示(文本行)。它甚至还有一个很好的向导,可以引导您创建表示记录的这些对象。它将轻松处理主细节,分隔和固定格式。