用于创建/操作固定宽度文本文件的PHP库

时间:2011-04-25 22:53:48

标签: php text-files edi fixed-width

我们有一个可以进行时间跟踪,工资单和人力资源的Web应用程序。因此,我们必须编写大量固定宽度的数据文件,以便导出到其他系统(州税申报,ACH文件等)。有没有人知道一个好的库,你可以在那里定义记录类型/结构,然后在OOP范例中对它们采取行动?

这个想法将是您处理规范的类,然后使用所述规范的实例。 IE:

$icesa_file = new FixedWidthFile();
$icesa_file->setSpecification('icesa.xml');
$icesa_file->addEmployer( $some_data_structure );

其中icesa.xml是包含规范的文件,尽管您可以使用OOP调用自行定义:

$specification = new FixedWidthFileSpecification('ICESA');
$specification->addRecordType(
    $record_type_name = 'Employer',
    $record_fields = array(
         array('Field Name', Width, Vailditation Type, options)
         )
     );

编辑:我不是在寻找关于如何编写这样一个库的建议 - 我只是想知道一个是否已存在。谢谢!!

7 个答案:

答案 0 :(得分:8)

我不知道哪个库完全符合您的要求,但是应该直接推出自己的类来处理这个问题。假设您主要对以这些格式编写数据感兴趣,我会使用以下方法:

(1)为固定宽度字符串编写一个轻量级格式化程序类。它必须支持用户定义的记录类型,并且在允许的格式方面应该是灵活的

(2)为您使用的每种文件格式实例化此类并添加所需的记录类型

(3)使用此格式化程序格式化数据

正如您所建议的那样,您可以在XML中定义记录类型并在步骤(2)中加载此XML文件。我不知道你对XML有多么有经验,但根据我的经验,XML格式经常会引起很多麻烦(可能是由于我自己对XML的无能)。如果您只在PHP程序中使用这些类,那么在XML中定义格式并没有什么好处。如果您还需要在许多其他应用程序中使用文件格式定义,那么使用XML是一个不错的选择。

为了说明我的想法,以下是我认为你会使用这个建议的格式化程序类:

<?php
include 'FixedWidthFormatter.php' // contains the FixedWidthFormatter class
include 'icesa-format-declaration.php' // contains $icesaFormatter
$file = fopen("icesafile.txt", "w");

fputs ($file, $icesaFormatter->formatRecord( 'A-RECORD', array( 
    'year' => 2011, 
    'tein' => '12-3456789-P',
    'tname'=> 'Willie Nelson'
)));
// output: A2011123456789UTAX     Willie Nelson                                     

// etc...

fclose ($file);
?>

文件icesa-format-declaration.php可能包含格式的声明,如下所示:

<?php
$icesaFormatter = new FixedWidthFormatter();
$icesaFormatter->addRecordType( 'A-RECORD', array(
    // the first field is the record identifier
    // for A records, this is simply the character A
    'record-identifier' => array(
        'value' => 'A',  // constant string
        'length' => 1 // not strictly necessary
                      // used for error checking
    ),
    // the year is a 4 digit field
    // it can simply be formatted printf style
    // sourceField defines which key from the input array is used
    'year' =>  array(
        'format' => '% -4d',  // 4 characters, left justified, space padded
        'length' => 4,
        'sourceField' => 'year'
    ),
    // the EIN is a more complicated field
    // we must strip hyphens and suffixes, so we define
    // a closure that performs this formatting
    'transmitter-ein' => array(
        'formatter'=> function($EIN){
            $cleanedEIN =  preg_replace('/\D+/','',$EIN); // remove anything that's not a digit
            return sprintf('% -9d', $cleanedEIN); // left justified and padded with blanks
        },
        'length' => 9,
        'sourceField' => 'tein'
    ),
    'tax-entity-code' => array(
        'value' => 'UTAX',  // constant string
        'length' => 4
    ),
    'blanks' => array(
        'value' => '     ',  // constant string
        'length' => 5
    ),
    'transmitter-name' =>  array(
        'format' => '% -50s',  // 50 characters, left justified, space padded
        'length' => 50,
        'sourceField' => 'tname'
    ),
    // etc. etc.
));
?>

然后你只需要FixedWidthFormatter类本身,它看起来像这样:

<?php

class FixedWidthFormatter {

    var $recordTypes = array();

    function addRecordType( $recordTypeName, $recordTypeDeclaration ){
        // perform some checking to make sure that $recordTypeDeclaration is valid
        $this->recordTypes[$recordTypeName] = $recordTypeDeclaration;
    }

    function formatRecord( $type, $data ) {
        if (!array_key_exists($type, $this->recordTypes)) {
            trigger_error("Undefinded record type: '$type'");
            return "";
        }
        $output = '';
        $typeDeclaration = $this->recordTypes[$type];
        foreach($typeDeclaration as $fieldName => $fieldDeclaration) {
            // there are three possible field variants:
            //  - constant fields
            //  - fields formatted with printf
            //  - fields formatted with a custom function/closure
            if (array_key_exists('value',$fieldDeclaration)) {
                $value = $fieldDeclaration['value'];
            } else if (array_key_exists('format',$fieldDeclaration)) {
                $value = sprintf($fieldDeclaration['format'], $data[$fieldDeclaration['sourceField']]);
            } else if (array_key_exists('formatter',$fieldDeclaration)) {
                $value = $fieldDeclaration['formatter']($data[$fieldDeclaration['sourceField']]);
            } else {
                trigger_error("Invalid field declaration for field '$fieldName' record type '$type'");
                return '';
            }

            // check if the formatted value has the right length
            if (strlen($value)!=$fieldDeclaration['length']) {
                trigger_error("The formatted value '$value' for field '$fieldName' record type '$type' is not of correct length ({$fieldDeclaration['length']}).");
                return '';
            }
            $output .= $value;
        }
        return $output . "\n";
    }
}


?>

如果您还需要读取支持,可以扩展Formatter类以允许读取,但这可能超出了此答案的范围。

答案 1 :(得分:3)

之前我很高兴使用this class进行类似的使用。它是一个php-classes文件,但它的评级非常好,并且经过多次尝试和测试。这不是新的(2003),但无论它仍然做得非常好 +有一个 非常体面和干净的API 看起来有点像你添加了很多其他好东西的例子。

如果您可以忽略示例中的德语用法,以及年龄因素 - >这段代码很不错。

Posted from the example:


//CSV-Datei mit Festlängen-Werten 
echo "<p>Import aus der Datei fixed.csv</p>"; 
$csv_import2 = new CSVFixImport; 
$csv_import2->setFile("fixed.csv"); 
$csv_import2->addCSVField("Satzart", 2); 
$csv_import2->addCSVField("Typ", 1); 
$csv_import2->addCSVField("Gewichtsklasse", 1); 
$csv_import2->addCSVField("Marke", 4); 
$csv_import2->addCSVField("interne Nummer", 4); 


$csv_import2->addFilter("Satzart", "==", "020"); 
$csv_import2->parseCSV(); 
if($csv_import->isOK()) 
{ 
    echo "Anzahl der Datensätze: <b>" . $csv_import2->CSVNumRows() . "</b><br>"; 
    echo "Anzahl der Felder: <b>" . $csv_import2->CSVNumFields() . "</b><br>"; 
    echo "Name des 1.Feldes: <b>" . $csv_import2->CSVFieldName(0) . "</b><br>"; 

    $csv_import2->dumpResult(); 
}

我的2美分,祝你好运!

答案 2 :(得分:1)

我不知道任何专门处理固定宽度记录的PHP库。但是,如果您可以自己完成分解文件的每一行,那么有一些很好的库可用于过滤和验证一行数据字段。

查看Zend Framework中的Zend_FilterZend_Validate组件。我认为这两个组件都是相当自包含的,只需要Zend_Loader就可以工作。如果您愿意,可以从Zend Framework中提取这三个组件并删除其余组件。

Zend_Filter_Input就像过滤器和验证器的集合。您可以为数据记录的每个字段定义一组过滤器和验证器,您可以使用这些过滤器和验证器来处理数据集的每个记录。已经定义了许多有用的过滤器和验证器,并且编写自己的接口非常简单。我建议使用StringTrim过滤器来删除填充字符。

要将每一行拆分为字段,我会扩展Zend_Filter_Input类并添加一个名为setDataFromFixedWidth()的方法,如下所示:

class My_Filter_Input extends Zend_Filter_Input
{
    public function setDataFromFixedWidth($record, array $recordRules)
    {
        if (array_key_exists('regex', $recordRules) {
            $recordRules = array($recordRules);
        }

        foreach ($recordRules as $rule) {
            $matches = array();
            if (preg_match($rule['regex'], $record, $matches)) {
                $data = array_combine($rule['fields'], $matches);
                return $this->setData($data);
            }
        }

        return $this->setData(array());
    }

}

使用简单的正则表达式和匹配的字段名称定义各种记录类型。 ICESA可能看起来像这样:

$recordRules = array(
    array(
        'regex'  => '/^(A)(.{4})(.{9})(.{4})/',  // This is only the first four fields, obviously
        'fields' => array('recordId', 'year', 'federalEin', 'taxingEntity',),
    ),
    array(
        'regex'  => '/^(B)(.{4})(.{9})(.{8})/',
        'fields' => array('recordId', 'year', 'federalEin', 'computer',),
    ),
    array(
        'regex'  => '/^(E)(.{4})(.{9})(.{9})/',
        'fields' => array('recordId', 'paymentYear', 'federalEin', 'blank1',),
    ),
    array(
        'regex'  => '/^(S)(.{9})(.{20})(.{12})/',
        'fields' => array('recordId', 'ssn', 'lastName', 'firstName',),
    ),
    array(
        'regex'  => '/^(T)(.{7})(.{4})(.{14})/',
        'fields' => array('recordId', 'totalEmployees', 'taxingEntity', 'stateQtrTotal'),
    ),
    array(
        'regex'  => '/^(F)(.{10})(.{10})(.{4})/',
        'fields' => array('recordId', 'totalEmployees', 'totalEmployers', 'taxingEntity',),
    ),
);

然后,您可以逐行读取数据文件并将其输入输入过滤器:

$input = My_Filter_Input($inputFilterRules, $inputValidatorRules);
foreach (file($filename) as $line) {
    $input->setDataFromFixedWidth($line, $recordRules);
    if ($input->isValid()) {
        // do something useful
    }
    else {
        // scream and shout
    }
}

要格式化数据以写回文件,您可能希望编写自己的StringPad过滤器来包装内部str_pad函数。然后,对于数据集中的每条记录:

$output = My_Filter_Input($outputFilterRules);
foreach ($dataset as $record) {
    $output->setData($record);
    $line = implode('', $output->getEscaped()) . "\n";
    fwrite($outputFile, $line);
}

希望这有帮助!

答案 3 :(得分:0)

我认为您需要的信息比您提供的信息要多: 您希望将哪种数据结构用于记录和列定义? 看起来这是一个相当专业的类,需要针对您的特定用例进行自定义。

我有一个我编写的PHP类,它基本上是你正在寻找的,但依赖于我们在系统中使用的其他类。如果你可以提供你想要使用它的数据结构类型,我可以检查它是否适合你并发送它。

注意:我之前从公共计算机上发布了这个答案,我无法让它看起来像是来自我(它显示为一些随机用户)。如果你看到了,请忽略'john'的回答。 功能

答案 4 :(得分:0)

如果这是带有分隔字段的文本文件, - 您需要自己编写。 可能它不是问题。良好的组织,将节省大量时间。

  1. 您需要定义结构的通用方法。即XML。
  2. 你需要一些东西......特别是我更喜欢Smarty模仿这个。
  3. 所以这一个:

       <group>
    
          <entry>123</entry>
    
          <entry>123</entry>
    
          <entry>123</entry>
    
        </group>
    

    可以使用此模板轻松解释为测试:

    {section name=x1 loop=level1_arr}
    
    {--output root's--}
    
      {section name=x2 loop=level1_arr[x1].level2_arr}
    
         {--output entry's--}
    
      {/section}
    
    {/section}
    

    这只是想法。

    但想象一下:

    1. 您需要xml
    2. 您需要模板
    3. 即。抽象任何文本结构

      的2个定义

答案 5 :(得分:-1)

也许dbase功能是你想要使用的。它们不是OOP,但是构建一个可以对dbase集中提供的函数起作用的类可能不会太困难。

请查看以下链接,了解有关PHP中可用的dbase功能的详细信息。如果您只是想创建一个文件以导入到另一个系统,这些功能应该适合您。只要确保你注意警告。一些关键警告是:

  • 不支持索引或备注字段。
  • 不支持锁定。
  • 修改相同dBase文件的两个并发Web服务器进程很可能会破坏您的数据库。

http://php.net/manual/en/book.dbase.php

答案 6 :(得分:-1)

我很抱歉我无法帮助你直接上课我看到了一些可以做到这一点的事情,但是我不记得哪里对此感到抱歉但编程人员应该很容易构建,

所以我如何在一个例子中看到这项工作:

php读入数据

php然后使用一个标志(E.G a $ _GET ['type'])来知道如何输出数据E.G Printer,HTML,Excel

因此,您为每个版本构建模板文件,然后根据您加载的标志并使用定义的模板,对于Fixed Width,这是一个HTML而不是PHP,所以这应该在模板CSS中完成

然后,您可以根据用户的需要输出您的数据,

Smarty模板非常适合这个,然后php标头在需要时发送内容类型。