我在几个文件中有1TB的文本数据。一个15GB的文件有大约7亿行,所以我估计总行数接近1000亿。数据具有以下结构:
+--------+--------+--------+--------+--------+
| label1 | label2 | value1 | value2 | value3 |
+--------+--------+--------+--------+--------+
标签是字符串,值是整数。在文件中,所有内容都使用制表符进行划分,以便于导入。
最终,我需要能够搜索“label1”或“label2”等于某个字符串的行。我认为MySQL将是完美的解决方案。鉴于数据的大小,我怀疑MySQL的效率。
使用“LOAD DATA LOCAL INFILE”似乎是将数据导入MySQL的推荐方法。即使在使用导入设置进行操作之后,导入似乎也需要很长时间。 StackOverflow上的一些答案表明导入速度范围为每小时200-400万行。
还有其他更快的导入方法吗?我希望在6个小时内导入所有数据。
对于这类任务,MySQL是否是一个很好的解决方案?