用于松散结构化数据的数据浏览/查询工具

时间:2010-02-10 19:26:11

标签: data-mining

我有一组统计数据(约100M大小),按键值对组织,一些值只是数字(例如人的年龄或体重),有些是等级的(例如像人的就业 - 它可以有一组就业记录,每个记录再次包含键/值对等)。真实的数据不完全是这些,但结构是相似的。

我需要用任意一套标准来查询这些数据 - 也就是说,我可能会问一些类似“3年前20位最老的人在哪里工作”或“所有曾在公司工作的人的工资总和是多少” X超过一年“,或者”给我所有关于最近找到新工作的人的信息“,等等。

我可以很容易地对每个单独的查询进行编程,但由于它们可以有很多并且它们一直变化,因此重新编程每个查询变得乏味,所以问题是是否有一个现有的工具可以让我更容易做这样的查询(如果它有一个很好的GUI,这是一个奖金:)。像SQL这样的东西不能很好地工作,因为数据字段并没有真正修复,并且在SQL中使层次结构工作会很麻烦恕我直言。那么有一个工具,我可以相对轻松地使用这个任务(即没有学习一种全新的语言 - 我最好继续用手工编码查询)?

1 个答案:

答案 0 :(得分:0)

您可能想要查看MongoDB。它是一个JSON数据存储,因此它基本上与键/值对一起使用,您可以在JSON中嵌套JSON。它使用JavaScript作为查询语言。当然,您需要将数据转换为JSON,但这并不困难。

另一种选择可能是像Neo4j这样的图形数据库。每条记录都是一个节点,您可以定义节点之间的关系(可视化为边)。

我不认为其中任何一种都有任何类型的GUI,但它们很容易查询。 MongoDB使用JS和可用于调用数据库的绑定。 Neo4j使用Java,但是对其他语言有一些绑定。

SQL查询具有挑战性,但它会起作用。我也会抛出PostgreSQL作为一个选项,因为它有点面向对象,但我对其他人更熟悉。