格式化LOAD DATA INFILE命令的文本文件

时间:2015-06-11 12:13:22

标签: php mysql

我在一个有这个项目的公司工作,根据我公司制作的产品创建一个Web应用程序。

内部服务器包含我公司的所有数据。我要做的是解析oracle服务器正在检索的数据。它正在检索.lst文件,这些文件可以使用Excel或一些php包轻松转换为.csv。

我使用LOAD DATA INFILE命令成功将Clients表导入MySQL数据库。但是,当我想解析文章表时,我正在运行一些问题。

列/值不一定用分号分隔。要解析数据,我不得不说:

  • 前6个字符是文章ID
  • 接下来的35个字符是文章的描述

依旧......

有没有办法在使用LOAD DATA INFILE命令时实现这一点,或者我应该使用PHP正确格式化文件然后使用此命令,如果是,那么什么是最好的方法?

谢谢你们,我希望自己能说清楚,因为英语不是我的主要语言。 :P

编辑:这些是行。

51016 51016 BOITE ORANGINA 33cls CASHS   "24"                               040430024000330  0000000000            1       01000000550009000                   000000NNNNNN caisse         0000003750000000000001230      
51019 51019 BOITE OASIS ORANGE CASHS  "24" 33cl                             040430024000330  0000000000            1       01000000550009000                   000000NNNNNN caisse         0000003670000000000001230

第一行正确解析而第二行不正确.24之后的双引号被放入下一列。我只是想知道是否可以对它做点什么,比如删除双引号。

之前的开发人员创建了一个应用程序来管理公司的文章和客户。不幸的是他不能帮助我了,但这里描述的是一条连线。

import_a;Code_article;6;designation;35;designation2;35;Code_famille;2;Code_sousfamille;4;unite_condition;3;contenance;6/1000;Champ_vide;2;degre;4/10;champ_vide_6;6;Code_emballage;4;Champ_vide2;8;validite;1;Champ_vide3;7;code_tva;2;taux_tva;9/100;poids;6/1000;champ_vide4;19;montant_droits;6/1000;valide;1;rupture;1;edit_tarif;1;pre_commande;1;gratuit_autorise;1;trans_port;1;Champ_libre;1;caisse;15;prix_revient;9/100;stock;6/1;Champ_vide5;5;code_fournisseur;11/1

import_a =>它是您可以忽略的文件名。

然后您有列的名称,后跟字符数。例如Code_articles由6个字符组成,依此类推。

您也可以在开头忽略重复的ID键。 但总共应该有31列。

1 个答案:

答案 0 :(得分:1)

您可以使用此perl脚本开始测试。最重要的是根据您的实际数据调整$ def线,直到您得到正确的结果。

#!/usr/bin/perl

$input_file = "/tmp/a.lst";
$output_file = "/tmp/a.csv";
$testing = 1;  #testing, print out directly first 100 lines

# we are using tab (#9) for the output csv file
$delim   ="\t";

# output column header 
$output_header = 1;

$defs= "import_a;Code_article;6;Code_article2;6;designation;29;designation2;35;Code_famille;2;Code_sousfamille;4;unite_condition;3;contenance;6/1000;Champ_vide;2;degre;4/10;champ_vide_6;6;Code_emballage;4;Champ_vide2;8;validite;1;Champ_vide3;7;code_tva;2;taux_tva;9/100;poids;6/1000;champ_vide4;19;montant_droits;6/1000;valide;1;rupture;1;edit_tarif;1;pre_commande;1;gratuit_autorise;1;trans_port;1;Champ_libre;1;caisse;15;prix_revient;9/100;stock;6/1;Champ_vide5;5;code_fournisseur;11/1";

my @input_fields, @input_fieldwidths, @input_fieldwidth_max, $input_field_no =0;
@defs= split(";",$defs);
$total_defs=$#defs;
$total_cols = 0;
$total_width = 0;

for($x=0; $x<$total_defs /2; $x++)
{
  push(@input_fields, $defs[$x*2+1]);
  $width = $defs[$x*2+2];
  if($width=~/(.*)\/(.*)/){
    $mw= $1;
    $xw= $2;
  }
  else{
    $mw = $width;
    $xw= 0;
  }
  $total_width += $mw;
  push(@input_field_widths,$mw);
  push(@input_field_widths_max, $xw);
  $total_cols ++;
}

if($testing){
  for($x=1; $x<$total_cols; $x++)
  {
    print "$input_fields[$x]: $input_field_widths[$x]\n";
  }
}

open(INPUT, $input_file) || die "Can not open input file";
open(OUTPUT, ">$output_file" ) || die "Can not open output file";

# this is the csv head
if($output_header){ 
  print OUTPUT "$input_fields[0]";
  for($x=1; $x<$total_cols; $x++)
  {
    print OUTPUT "\t$input_fields[$x]";
  }
  print OUTPUT "\n";
}

$lines=0;

foreach $l (<INPUT>)
{
  chop($l);
  $pos =0;
  for($f=0; $f < $total_cols; $f++)
  {
    $val = substr($l, $pos, $input_field_widths[$f]);
    print OUTPUT $delim if($pos);
    print $delim if($pos && $testing);
    print OUTPUT $val;
    print $val if($testing);
    $pos +=  $input_field_widths[$f];
  }
  print OUTPUT "\n";
  print "\n" if($testing);
  $lines++;
  if($testing && $lines>100) { last;};
}

print $lines , " lines transformed\n";

close(INPUT);
close(OUTPUT);

编辑:以逗号分隔的引用csv格式:

#!/usr/bin/perl


$input_file = "/tmp/a.lst";
$output_file = "/tmp/a.csv";

# we are using tab (#9) for the output csv file
$delim   =";";
$testing = 1;  #testing, print out directly first 10 lines
$quote   ="'";

# output column header 
$output_header = 1;

$defs= "import_a;Code_article;6;Code_article2;6;designation;29;designation2;35;Code_famille;2;Code_sousfamille;4;unite_condition;3;contenance;6/1000;Champ_vide;2;degre;4/10;champ_vide_6;6;Code_emballage;4;Champ_vide2;8;validite;1;Champ_vide3;7;code_tva;2;taux_tva;9/100;poids;6/1000;champ_vide4;19;montant_droits;6/1000;valide;1;rupture;1;edit_tarif;1;pre_commande;1;gratuit_autorise;1;trans_port;1;Champ_libre;1;caisse;15;prix_revient;9/100;stock;6/1;Champ_vide5;5;code_fournisseur;11/1";

my @input_fields, @input_fieldwidths, @input_fieldwidth_max, $input_field_no =0;
@defs= split(";",$defs);
$total_defs=$#defs;
$total_cols = 0;
$total_width = 0;

for($x=0; $x<$total_defs /2; $x++)
{
  push(@input_fields, $defs[$x*2+1]);
  $width = $defs[$x*2+2];
  if($width=~/(.*)\/(.*)/){
    $mw= $1;
    $xw= $2;
  }
  else{
    $mw = $width;
    $xw= 0;
  }
  $total_width += $mw;
  push(@input_field_widths,$mw);
  push(@input_field_widths_max, $xw);
  $total_cols ++;
}

if($testing){
  for($x=0; $x<$total_cols; $x++)
  {
    print "$input_fields[$x]: $input_field_widths[$x]\n";
  }
}

open(INPUT, $input_file) || die "Can not open input file";
open(OUTPUT, ">$output_file" ) || die "Can not open output file";

# this is the csv head
if($output_header){ 
  print OUTPUT "$input_fields[0]";
  for($x=1; $x<$total_cols; $x++)
  {
    print OUTPUT "\t$input_fields[$x]";
  }
  print OUTPUT "\n";
}

$lines=0;

foreach $l (<INPUT>)
{
  chop($l);
  $pos =0;
  for($f=0; $f < $total_cols; $f++)
  {
    $val = substr($l, $pos, $input_field_widths[$f]);
    print OUTPUT $delim if($pos);
    #print $delim if($pos && $testing);
    print OUTPUT $quote, $val, $quote;
    if($testing){
      print $input_fields[$f] , "=", $val, "\n";
    }
    $pos +=  $input_field_widths[$f];
  }
  print OUTPUT "\n";
  print "\n" if($testing);
  $lines++;
  if($testing && $lines>0) { last;};
}

print $lines , " lines transformed\n";

close(INPUT);
close(OUTPUT);