MySQL将制表符分隔的文件加载到具有特殊字符的表中

时间:2013-03-21 00:13:02

标签: mysql sql

我希望能够将文件加载到具有反斜杠的MySQL表中,如下所示:

Fred          Los Angeles        I am Fred
Nick          Madison            Great Lakes Whoo
JOHN          San Diego          Hello world!\
Bob           NYC                Big apple            

用户JOHN在第3列的末尾添加了\。当我将其加载到表中时,MySQL将反斜杠解释为某种行继续并将第3行,第3行连接到第4行,Col1)。

我不能只是复制和粘贴来修复它,因为有数百万行像这样在各个地方使用反斜杠造成破坏。

使用反斜杠将带制表符分隔的文件加载到MySQL表中的正确方法是什么?我应该用引号括起每个(列)字段吗?我应该编写一个删除特殊字符的解析器吗?

2 个答案:

答案 0 :(得分:5)

加载文件时必须指定ESCAPED BY选项。在下面的示例中,我假设您的字段按选项卡划分(这是默认行为),文件位于客户端主机上:

LOAD DATA LOCAL INFILE '/path/to/file/my.txt' INTO TABLE t
FIELDS TERMINATED BY '\t' ESCAPED BY '\b';

答案 1 :(得分:2)

如何在mysql加载数据infile工具中驯服反斜杠:

第1步,创建表格

mysql> create table penguin (id int primary key, chucknorris VARCHAR(4000));
Query OK, 0 rows affected (0.01 sec)

第2步,创建要导入的文件并将此数据放入其中。

1   aliens are on route
2   scramble the nimitz\
3   \its species 8472
4   \\\\\\\\\\\\\\\\\\
5   Bonus characters:!@#$%^&*()_+=-[]\|}{;'":/.?>,< anything but tab

第3步,插入您的表格:

mysql> load data local infile '/home/el/foo/textfile.txt' into table penguin 
       fields terminated by '\t' lines terminated by '\n' 
       (@col1, @col2) set id=@col1, chucknorris=@col2;
Query OK, 4 rows affected, 1 warning (0.00 sec)
Records: 4  Deleted: 0  Skipped: 0  Warnings: 1

第4步,当然,它会导致这种奇怪的输出:

mysql> select * from penguin;
+----+-----------------------------------------------------------------+
| id | chucknorris                                                     |
+----+-----------------------------------------------------------------+
|  1 | aliens are on route                                             |
|  2 | scramble the nimitz
3                                           |
|  4 | \\\\\\\\\                                                       |
|  5 | Bonus characters:!@#$%^&*()_+=-[]|}{;'":/.?>,< anything but tab |
+----+-----------------------------------------------------------------+

步骤5,分析警告:

mysql> show warnings;
+---------+------+--------------------------------------------------------+
| Level   | Code | Message                                                |
+---------+------+------------------------------------- ------------------+
| Warning | 1262 | Row 2 was truncated; it contained more data than there |
|         |      | were input columns                                     |
+---------+------+--------------------------------------------------------+
1 row in set (0.00 sec)

第6步,考虑到底出了什么问题:

nimitz左侧的反斜杠导致mysql加载数据解析器将第2行的结尾与第3行的开头连接起来。然后它碰到了一个标签并将'nimitz \ n3'加入第2行。

第3行的其余部分被跳过,因为额外的单词its species 8472不适合任何地方,它会产生您在上面看到的警告。

第4行有18个反斜杠,因此没有任何问题,并显示为9个反斜杠,因为每个都被转义。如果有一个奇数,第2行的错误就会发生在第4行。

第5行的奖励字符正常通过。除了标签,一切都被允许。

第7步,重置企鹅:

mysql> delete from penguin;

第8步,使用fields escaped by条款加载到您的表格中:

mysql> load data local infile '/home/el/foo/textfile.txt' into table penguin 
       fields terminated by '\t' escaped by '\b' 
       lines terminated by '\n' (@col1, @col2) set id=@col1, 
       chucknorris=@col2;

Query OK, 5 rows affected (0.00 sec)
Records: 5  Deleted: 0  Skipped: 0  Warnings: 0

第9步,从您的表格中选择,解释结果:

mysql> select * from penguin;
+----+------------------------------------------------------------------+
| id | chucknorris                                                      |
+----+------------------------------------------------------------------+
|  1 | aliens are on route                                              |
|  2 | scramble the nimitz\                                             |
|  3 | \its species 8472                                                |
|  4 | \\\\\\\\\\\\\\\\\\                                               |
|  5 | Bonus characters:!@#$%^&*()_+=-[]\|}{;'":/.?>,< anything but tab |
+----+------------------------------------------------------------------+
5 rows in set (0.00 sec)

现在一切都如我们所料。第2行末尾的反斜杠不会越过换行符。第3行i之前的反斜杠不执行任何操作。第4行的18个反斜杠不会被转义。奖金角色通过确认。