我希望能够将文件加载到具有反斜杠的MySQL表中,如下所示:
Fred Los Angeles I am Fred
Nick Madison Great Lakes Whoo
JOHN San Diego Hello world!\
Bob NYC Big apple
用户JOHN在第3列的末尾添加了\
。当我将其加载到表中时,MySQL将反斜杠解释为某种行继续并将第3行,第3行连接到第4行,Col1)。
我不能只是复制和粘贴来修复它,因为有数百万行像这样在各个地方使用反斜杠造成破坏。
使用反斜杠将带制表符分隔的文件加载到MySQL表中的正确方法是什么?我应该用引号括起每个(列)字段吗?我应该编写一个删除特殊字符的解析器吗?
答案 0 :(得分:5)
加载文件时必须指定ESCAPED BY
选项。在下面的示例中,我假设您的字段按选项卡划分(这是默认行为),文件位于客户端主机上:
LOAD DATA LOCAL INFILE '/path/to/file/my.txt' INTO TABLE t
FIELDS TERMINATED BY '\t' ESCAPED BY '\b';
答案 1 :(得分:2)
第1步,创建表格
mysql> create table penguin (id int primary key, chucknorris VARCHAR(4000));
Query OK, 0 rows affected (0.01 sec)
第2步,创建要导入的文件并将此数据放入其中。
1 aliens are on route
2 scramble the nimitz\
3 \its species 8472
4 \\\\\\\\\\\\\\\\\\
5 Bonus characters:!@#$%^&*()_+=-[]\|}{;'":/.?>,< anything but tab
第3步,插入您的表格:
mysql> load data local infile '/home/el/foo/textfile.txt' into table penguin
fields terminated by '\t' lines terminated by '\n'
(@col1, @col2) set id=@col1, chucknorris=@col2;
Query OK, 4 rows affected, 1 warning (0.00 sec)
Records: 4 Deleted: 0 Skipped: 0 Warnings: 1
第4步,当然,它会导致这种奇怪的输出:
mysql> select * from penguin;
+----+-----------------------------------------------------------------+
| id | chucknorris |
+----+-----------------------------------------------------------------+
| 1 | aliens are on route |
| 2 | scramble the nimitz
3 |
| 4 | \\\\\\\\\ |
| 5 | Bonus characters:!@#$%^&*()_+=-[]|}{;'":/.?>,< anything but tab |
+----+-----------------------------------------------------------------+
步骤5,分析警告:
mysql> show warnings;
+---------+------+--------------------------------------------------------+
| Level | Code | Message |
+---------+------+------------------------------------- ------------------+
| Warning | 1262 | Row 2 was truncated; it contained more data than there |
| | | were input columns |
+---------+------+--------------------------------------------------------+
1 row in set (0.00 sec)
第6步,考虑到底出了什么问题:
nimitz
左侧的反斜杠导致mysql加载数据解析器将第2行的结尾与第3行的开头连接起来。然后它碰到了一个标签并将'nimitz \ n3'加入第2行。
第3行的其余部分被跳过,因为额外的单词its species 8472
不适合任何地方,它会产生您在上面看到的警告。
第4行有18个反斜杠,因此没有任何问题,并显示为9个反斜杠,因为每个都被转义。如果有一个奇数,第2行的错误就会发生在第4行。
第5行的奖励字符正常通过。除了标签,一切都被允许。
第7步,重置企鹅:
mysql> delete from penguin;
第8步,使用fields escaped by
条款加载到您的表格中:
mysql> load data local infile '/home/el/foo/textfile.txt' into table penguin
fields terminated by '\t' escaped by '\b'
lines terminated by '\n' (@col1, @col2) set id=@col1,
chucknorris=@col2;
Query OK, 5 rows affected (0.00 sec)
Records: 5 Deleted: 0 Skipped: 0 Warnings: 0
第9步,从您的表格中选择,解释结果:
mysql> select * from penguin;
+----+------------------------------------------------------------------+
| id | chucknorris |
+----+------------------------------------------------------------------+
| 1 | aliens are on route |
| 2 | scramble the nimitz\ |
| 3 | \its species 8472 |
| 4 | \\\\\\\\\\\\\\\\\\ |
| 5 | Bonus characters:!@#$%^&*()_+=-[]\|}{;'":/.?>,< anything but tab |
+----+------------------------------------------------------------------+
5 rows in set (0.00 sec)
现在一切都如我们所料。第2行末尾的反斜杠不会越过换行符。第3行i
之前的反斜杠不执行任何操作。第4行的18个反斜杠不会被转义。奖金角色通过确认。