在SSIS中处理具有多种格式和不同记录集的平面文件

时间:2018-08-21 10:37:54

标签: c# ssis

我正在尝试使用SSIS处理Pipp分隔的平面文件。该文件具有两种不同类型的记录。每个记录集都有自己的标题行和尾部行。他们需要去两个不同的桌子。

尾部行包含每个记录集的行数,而标题行包含记录的列名。因此,从本质上讲,这就像两种类型的文件,而在一种文件中。

我尝试了几种解决方案,包括使用条件拆分,但是我无法实现这一目标。我知道您可以使用脚本组件和C#来执行此操作,但我还无法实现。我已附上图片以显示文件格式。

这是我到目前为止尝试过的。

  1. 我将平面文件连接编辑为参差不齐,以使输出位于一列中。
  2. 然后我创建了一个脚本组件作为源。想法是使用流读取器逐行读取文件,然后创建4个输出缓冲区。 2(用于列标题)和2(用于不同的详细信息行),然后将脚本设置为在到达尾部行时停止。我的意图是将每个标题行与各自的详细信息行合并,然后将它们保存到相关表中
  3. 然后我使用从研究中获得的C#代码。我是从Microsoft网站上摘下来的。

我使用了以下代码:

public class ScriptMain : UserComponent
{
    private StreamReader textReader;
    private string RTWFile;

    public override void AcquireConnections(object Transaction)
    {
        IDTSConnectionManager100 connMgr = this.Connections.RTWCon;
        RTWFile = (string)connMgr.AcquireConnection(null);
    }

    public override void PreExecute()
    {
        base.PreExecute();
        textReader = new StreamReader(RTWFile);
    }

    public override void CreateNewOutputRows()
    {
        string nextLine;
        string[] columns;

        char[] delimiters;
        delimiters = "|".ToCharArray();

        nextLine = textReader.ReadLine();
        while (nextLine != null)
        {
            columns = nextLine.Split(delimiters);
            {
                HeadersBuffer.AddRow();
                HeadersBuffer.EmployeeNumber = columns[0];
                HeadersBuffer.LegacyStaffID = columns[1];
                HeadersBuffer.FirstName = columns[2];
                HeadersBuffer.LastName = columns[3];
                HeadersBuffer.PassportIssuingCountry = columns[4];
                HeadersBuffer.PassportType = columns[5];
                HeadersBuffer.PassportNumber = columns[6];
                HeadersBuffer.PassportIssuingAuthority =columns[7];           
                HeadersBuffer.PassportIssueDate = columns[8];
                HeadersBuffer.PassportExpirationDate = columns[9];
            }
            nextLine = textReader.ReadLine();
        }
    }

    public override void PostExecute()
    {
        base.PostExecute();
        textReader.Close();
    }
}

平面文件格式的图片

Image of the flat file format

OutPutBuffers:

OutPutBuffers

FlatFileConfiguration:

FlatFileConfiguration

1 个答案:

答案 0 :(得分:0)

您还需要从预告片行中提取信息吗?

将文件分为两个文件是最干净的方法。了解您的要求后,我们可以通过脚本任务来完成此任务。

更新:

添加脚本任务并提供FilePath作为读取变量

编辑脚本任务并将其添加到顶部的名称空间区域

using System.IO;
using System.Text;
using System.Collections.Generic;

public void Main()
{
    try
    {
        String InputFilePath = Dts.Variables["User::FilePath"].Value.ToString();
        string InputFolder = Path.GetDirectoryName(InputFilePath);
        string TrailerLine = "TotalRow";
        bool FirstFile = true;
        string line;
        List<string> FirstFileLines, SecondFileLines;

        // Read the file and display it line by line.  
        System.IO.StreamReader file =
            new System.IO.StreamReader(InputFilePath);
        FirstFileLines = new List<string>();
        SecondFileLines = new List<string>();
        while ((line = file.ReadLine()) != null)
        {
            if (line.Contains(TrailerLine))
            {
                FirstFile = false;
                continue;
            }

            if (FirstFile) FirstFileLines.Add(line);
            else SecondFileLines.Add(line);
        }

        File.WriteAllLines(InputFolder + @"\FirstFile.txt", FirstFileLines.ToArray());
        File.WriteAllLines(InputFolder + @"\SecondFile.txt", SecondFileLines.ToArray());
        file.Close();
        Dts.TaskResult = (int)ScriptResults.Success;
    }
    catch (System.Exception ex)
    {
        MessageBox.Show(ex.Message.ToString());
        Dts.TaskResult = (int)ScriptResults.Failure;
    }

}