我有一项任务,并希望在我的脑海中发展我应该如何编程。
我可能会获得一个csv格式数据库,该数据库最少有3600万行数据。将来,用户需要根据多个列值根据某些条件通过CGI / perl接口搜索此“数据库”,并显示匹配的行。
我应该如何使用perl读取csv格式(可能使用CPAN的CSV解析器)并存储到什么类型的数据库中? 关键的优先事项是搜索数据库的速度。
任何样本编码都会受到赞赏
答案 0 :(得分:6)
您可能希望使用适当的数据库解决方案。最简单的设置(取决于您对RDBMS的熟悉程度)可能是MySQL。完成设置后,您需要查看Perl模块以与数据库连接。 DBIx::Class
是最近的“事物”,因此有很多人使用它来回答问题。
哦,对于您的CSV解析,请查看Text::CSV
,如果您不想将其直接加载到数据库中(如果您选择的RDBMS不支持直接摄取CSV文件)。
答案 1 :(得分:3)
PostgreSQL
可以导入CSV文件:
http://www.postgresql.org/docs/current/static/sql-copy.html
COPY命令也比提交36M插入更有效,一次一个。
在DBMS上设计后,您应该研究导入数据的方法。有了这么多记录,我就会明白MySQL
。
如果数据不是关系数据且只会变大,您可能需要考虑使用Hadoop
或其他形式的MapReduce
。它会将这30分钟的查询变成5分钟。
答案 2 :(得分:2)
大多数数据库都可以直接将CSV文件加载到表中。例如,Oracle的SQLLoader或MySQL的load命令。
以有效的方式搜索数据库取决于数据以及您希望如何搜索它。 (即哪些字段会有趣,哪些字段可以进行排序等等)如果没有更多信息,很难给出一个可靠的答案,尽管您应该遵循索引的一般最佳实践。
关于访问数据库的代码示例,请参阅以下链接:
答案 3 :(得分:1)
首先,使用T ext::CSV_XS解析CSV文件。
其次,使用什么类型的数据库以及如何构建它取决于将要进行的搜索类型。
如果您正在进行简单的关键字匹配,那么键值存储将非常快。像Berkeley DB这样的东西会做得很好。
如果您有更复杂的需求,您可能需要考虑一个SQL数据库,如MySQL,PostgreSQL,Oracle,SyBase等。 SQL数据库调优和设计本身就是一个完整的研究领域。我会提供一些建议,并建议您需要仔细考虑可以应用于字段的索引,以便最大限度地提高查询速度。
答案 4 :(得分:0)
有时Perl会因为它在处理基本场景方面的效率而让您感到惊讶。也就是说,如果你的用例都是只读的,而且信息是静态的/不变的,我会看到只是打开文件并搜索它的强力方法是如何工作的。
假设这是不可接受的,那么你只需要查看DBI,Perl与数据库交谈的方式,并运行数百万次插入,然后使用像MySQL或SQL Server这样的现代RDBMS快速读取
答案 5 :(得分:0)
甲骨文收购了MySQL是一个值得关注的问题但我认为MariaDB与最新的mysql一样好或更好....我还没有看过基准测试......只是发现它在这篇文章中缺席所以提及。
anonymus