Python和Hadoop的选择对于这种情况是一个很好的选择吗?

时间:2017-08-11 09:20:57

标签: python hadoop hadoop-streaming

我正在寻找构建具有以下功能的应用程序的解决方案:

  • 表格中数百万行的数据库化合物,可能与少数几行有关。

  • 快速单个查询,例如“SELECT * FROM table WHERE field LIKE%value”

  • 它将在Linux服务器上运行:单个节点,但将来可能有多个节点。

您认为Python和Hadoop是一个不错的选择吗?

我在哪里可以找到一个用Python编写的快速示例来向Hadoop添加/检索信息,以便看到一个概念证明在我的一只眼睛中运行并做出决定?

提前致谢!

1 个答案:

答案 0 :(得分:1)

不确定这些问题是否属于主题,但幸运的是答案很简单:

在这些日子里,一百万行根本不再那么大,甚至Excel也可以容纳一百多万行。 如果你在一个大表中有几百万行,并且想要运行快速的小选择语句,那么答案是没有Hadoop你可能会更好。

Hadoop非常适合1亿行,但不会缩小(性能和所需的维护)。

因此,我建议您尝试使用像MySQL这样的“普通”数据库解决方案。至少直到你的数据开始显着增长。

您可以使用python进行高级分析处理,但对于简单查询,我建议使用SQL。