Perl将大型.csv导入MySQL,不重复数据

时间:2013-04-26 18:48:50

标签: mysql perl csv

我正在尝试将几个.csv文件导入到mysql数据库中,下面的脚本可以工作,只是它只将我的csv数据的第一行导入数据库。我的两个表都填充了一个数据条目。

任何帮助将不胜感激。

谢谢

#!/usr/bin/perl

use DBI;
use DBD::mysql;
use strict;
use warnings;

# MySQL CONFIG VARIABLES
my $host = "localhost";
my $user = "someuser";
my $pw = "somepassword";

my $database = "test";
my $dsn = "DBI:mysql:database=" . $database . ";host=" . $host;

 my $dbh = DBI->connect($dsn, $user, $pw)
   or die "Can't connect to the DB: $DBI::errstr\n";

 print "Connected to DB!\n";


# enter the file name that you want import

my $filename = "/home/jonathan/dep/csv/linux_datetime_test_4.26.13_.csv";

open FILE, "<", $filename or die $!;

$_ = <FILE>;
$_ = <FILE>;

while (<FILE>) {
   my @f = split(/,/,$_);

if (length($f[4]) < 10) {
            print "No Weight\n"; 
    }
    else {
           #insert the data into the db
           print "insert into datetime_stamp\n"; 
}
        my $sql = "INSERT INTO datetime_stamp (subject, date, time, weight)                       
VALUES('$f[1]', '$f[2]', '$f[3]', '$f[4]')";
    print "$sql\n";
        my $query = $dbh->do($sql);

        my $sql = "INSERT INTO subj_weight (subject, weight) VALUES('$f[1]', '$f[2]')";
        my $query = $dbh->do($sql);

close(FILE);
}

1 个答案:

答案 0 :(得分:3)

如评论所述,您在读取第一个数据条目后关闭输入文件,因此仅使用单个记录填充数据库。

但是,您可能需要考虑的代码存在一些问题:

  • 如果在程序运行时打印诊断程序,则应在autoflush文件句柄上设置STDOUT。否则perl将不会打印输出,直到它有一个充满要打印的文本的缓冲区或文件句柄在程序退出时关闭。这意味着您可能在事件发生很久之后才看到您编码的消息

  • 您应该使用Text::CSV来解析CSV数据,而不是依赖split

  • 您可以变量插入到双引号字符串中。这避免了使用多个连接运算符并使意图更清晰

  • 您的open接近完美 - 这是一件不寻常的事情 - 因为您正确使用open的三参数形式,并测试它是否成功并放置$!die字符串中。但是你也应该总是使用词法文件句柄而不是老式的全局句柄

  • 您没有chomp从输入中读取的行,因此最后一个字段将具有尾随换行符。使用Text::CSV可以避免使用此

  • 您使用从输入记录中分割的数据的索引1到4。 Perl索引从零开始,因此这意味着您要删除第一个字段。这是对的吗?

  • 同样,您将字段1和2(看起来是subjectdate)插入名为subjectweight的字段中。这似乎不太可能是正确的

  • 您应该prepare您的SQL语句,使用占位符,并在execute调用中提供实际数据

  • 您似乎诊断从文件中读取的数据(“无重量”),但无论如何都要将数据插入数据库。这可能是正确的,但似乎不太可能

以下是包含这些修订的程序版本。我希望它对你有用。

#!/usr/bin/perl

use strict;
use warnings;

use DBI;
use Text::CSV;
use IO::Handle;

STDOUT->autoflush;

# MySQL config variables
my $host = "localhost";
my $user = "someuser";
my $pw   = "somepassword";

my $database = "test";
my $dsn      = "DBI:mysql:database=$database;host=$host";

my $dbh = DBI->connect($dsn, $user, $pw)
    or die "Can't connect to the DB: $DBI::errstr\n";

print "Connected to DB!\n";

my $filename = "/home/jonathan/dep/csv/linux_datetime_test_4.26.13_.csv";

open my $fh, '<', $filename
    or die qq{Unable to open "$filename" for input: $!};

my $csv = Text::CSV->new;

$csv->getline($fh) for 1, 2;  # Drop header lines

my $insert_datetime_stamp = $dbh->prepare( 'INSERT INTO datetime_stamp (subject, date, time, weight) VALUES(?, ?, ?, ?)' );
my $insert_subj_weight = $dbh->prepare( 'INSERT INTO subj_weight (subject, weight) VALUES(?, ?)' );

while (my $row = $csv->getline($fh)) {

    if (length($row->[4]) < 10) {
        print qq{Invalid weight: "$row->[4]"\n};
    }
    else {
        #insert the data into the db
        print "insert into datetime_stamp\n";
        $insert_datetime_stamp->execute(@$row[1..4]);
        $insert_subj_weight->execute(@$row[1,4]);
    }
}