我正在寻找构建具有以下功能的应用程序的解决方案:
表格中数百万行的数据库化合物,可能与少数几行有关。
快速单个查询,例如“SELECT * FROM table WHERE field LIKE%value”
它将在Linux服务器上运行:单个节点,但将来可能有多个节点。
您认为Python和Hadoop是一个不错的选择吗?
我在哪里可以找到一个用Python编写的快速示例来向Hadoop添加/检索信息,以便看到一个概念证明在我的一只眼睛中运行并做出决定?
提前致谢!
答案 0 :(得分:1)
不确定这些问题是否属于主题,但幸运的是答案很简单:
在这些日子里,一百万行根本不再那么大,甚至Excel也可以容纳一百多万行。 如果你在一个大表中有几百万行,并且想要运行快速的小选择语句,那么答案是没有Hadoop你可能会更好。
Hadoop非常适合1亿行,但不会缩小(性能和所需的维护)。
因此,我建议您尝试使用像MySQL这样的“普通”数据库解决方案。至少直到你的数据开始显着增长。
您可以使用python进行高级分析处理,但对于简单查询,我建议使用SQL。