使用FileHelper库解析具有n级层次结构的位置记录文件

时间:2012-03-28 14:46:04

标签: c# .net algorithm parsing filehelpers

我正在尝试使用FileHelper库来解析文本文件。最终,数据将存储在数据库中。我的文本文件包含位置记录。记录的前两个字符定义记录层次结构中的位置。 该文件按以下方式排序:

  • 10个通用数据(10-19都具有相同级别)
    • 20级二级数据(20-29级别相同)
      • 30个3级数据(30-39级别相同)
        • 40第4级数据
          • 50个第5级数据
            • 60最后一级数据
            • 60最后一级数据
          • 50个第5级数据
            • 60最后一级数据
            • 60最后一级数据
        • 40第4级数据
          • 50个第5级数据
            • 60最后一级数据
            • 60最后一级数据
          • 50个第5级数据
            • 60最后一级数据
            • 60最后一级数据
      • 30个第3级数据
        • 重复序列40,50,60 ..
    • 20二级数据
      • 重复序列20,40,50,60 ......依旧......

现在我正在尝试使用FileHelper的Master-Detail概念,但我猜它只适用于Master-Detail的一个级别。它可以用于创建数据层次结构,然后可以用来填充相关表格吗?所有记录都是固定长度记录,所以没有问题。

警告:记录之间没有主外键关系。位置和记录编号告诉谁是父(主)和谁有孩子(详情)。

样本日期如下:

10R 420120320F 20120320212045 16
11F FFuture              
11C OCall                
11P OPut                 
12CADCanadian Dollars     0
12CHFSwiss Francs         0
12CZKCzech Republic Korun 0
12DEMGerman Marks         0
12DKKDanish Krone         0
12ESBSpanish Pesatas      3
12EUREuropean currency Un 0
12FIMFinnish Mark         0
14     1 20.0000    100 2O  UKX 1A 1L  Z   1B 1
14     2 20.0000    100 2L  EFE 1A 1O  EFE 1B 1
14     3 20.0000    100 2L  EFP 1A 1O  EFP 1B 1
14     4 20.0000    100 2L  CCI 1A 1O  CCI 1B 1
14     5 20.0000    100 2L  AXI 1A 1O  AXI 1B 1
14     6 20.0000    100 2L  BLI 1A 1O  BLI 1B 1
15  1F+0, VOL+        2
15  2F+0, VOL-        1
15  3F+1/3, VOL+      4
15  4F+1/3, VOL-      3
15  5F-1/3, VOL+      6
15 16F-EXTREME       16
16EQYLIFFE Equities           
16IPEIntl. Petroleum Exchange 
16LCPLIFFE Commodity Products 
16LIFLIFFE Financials         
16LIGLIFFE OTC                
16LMELME Metals               
20L  LIFFE   F 
30AXIAEX Index              EQYEUR2.000.3500        10 110 1        
31 1 10000000099999999
32  1       220 2 1 1A 1 1B
34 1 1 1 1
40ZAXFAEX Index Future    EUR 10000    10       0.02000    1.00     0     0 2000002
50201204000.0000000.25000.2500  120120400
60       0F     1 3308420   1.0000      0      0 -66667 -66667  66667  66667-133333-133333 133333 133333-200000-200000 200000 200000-140000 140000
50201205000.0000000.25000.2500  120120500
60       0F     1 3262910   1.0000      0      0 -66667 -66667  66667  66667-133333-133333 133333 133333-200000-200000 200000 200000-140000 140000
50201206000.0000000.25000.2500  120120600
60       0F     1 3258970   1.0000      0      0 -66667 -66667  66667  66667-133333-133333 133333 133333-200000-200000 200000 200000-140000 140000
40I  OTHREE MONTH EURO (EUEUR 10000    25       0.25000    1.00     3  1000   32002
50201204000.0000000.35000.3500  120120600
60   97750C     1   16000   1.0000      0      0  -1067  -1067   1067   1067  -2133  -2133   2133   2133  -3200  -3200   3200   3200  -2240   2240
60   97750P     1       0   0.0000      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0
60   97875C     1   14750   1.0000      0      0  -1067  -1067   1067   1067  -2133  -2133   2133   2133  -3200  -3200   3200   3200  -2240   2240
60   97875P     1       0   0.0000      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0      0
30L  3 Month Pound Sterli   LIFGBP2.000.3500         11010 1        
31 6 10000000020120600 22012090020121200 32013030020131200 42014030020141200 52015030020151200 62016030099999999
32  1        50 2 2 1A 2 1B
32  2        55 2 1 1A 1 1B
32 21       290 2 6 1A 6 1B
34 2 1 1 3 2 4 6

请有人指导我如何使用FileHelper或任何其他库或某些算法来解析它。在这里使用XML可能是一个问题,因为文件大小很大(100 Mb),所以我更喜欢基于非xml的方法(我以前的方法是基于XML的,并且被我的架构师拒绝了。)

提前致谢。

2 个答案:

答案 0 :(得分:1)

FileHelpers并非真正适用于复杂的格式。如果你为每一行定义一个单独的格式并根据行的开头解析它们,你可能会得到MultiRecord engine的某个地方,但你会发现将子记录与父记录链接起来很棘手。

我认为您最好的方法是手动编码。像

这样的东西
  1. 每行读入
  2. 将每一行拆分为字段
  3. 如果是主线,请仔细阅读
  4. 如果细节线是主要的更多细节,请阅读这些行......等等。
  5. 如果文件大小很大,那么你不应该尝试处理整个文件而不保存解析的部分(数据库)。

    有一些有趣的方法可以处理CSV语法的解析。您可以使用Linq,当出现解析问题时,它不会提供非常有用的错误消息。或者您可以按照here所述使用ExpandoObjects。另一种方法是使用像Sprache这样的解析器生成器。无论如何,如果您尝试处理整个文件,这些方法可能会遇到内存问题。我的建议是考虑它们来解析各个行。

答案 1 :(得分:-1)

  1. 方法您可以使用正则表达式解析文件这是一般性的想法

  2. 分裂并获胜

    2.1。分成行

    2.2。用文字分割线条。关于n个单词,你知道你期望的格式

    2.3。如果2.2不够,则应用行的正则表达式来获取数据。

    2.4。如果2.3不够,也许您有区域,标题,财务信息1,财务信息2,使用2.1和2.2来了解您的位置,并保存您的状态,使用此状态来应用您需要的规则。

    < / LI>