将数据加载到OrientDB集群的策略

时间:2016-08-26 15:08:28

标签: orientdb etl

我正在使用OrientDB开发POC。我已经在3台服务器上进行了设置。我阅读了OrientDB文档,并希望如此 知道以CSV文件形式加载数据的最佳方法。具有3个类顶点和3个类边的模式应该是 相互联系。

以下是我的一些问题:

1)如果我为每个类创建3个集群并将每个集群分配给其中一个服务器,那么它在ETL性能方面是否有意义? (基于这个链接:http://orientdb.com/docs/2.2.x/Distributed-Sharding.html我不担心现阶段的容错能力)

2)关于ETL存储过程,我正在考虑3个选项:

对于第二种和第三种方法,我需要手动提供记录ID,我的疑问是如何确保不创建重复顶点。索引会帮助避免这种情况吗? 上述3种方法在性能方面有何比较?

3)是否可以使用ETL工具中的“plocal”选项将OrientDB集群的一台服务器存储在该机器中?

4)即使OrientDB在分布式模式下运行,是否可以对ETL使用plocal选项?

1 个答案:

答案 0 :(得分:0)

  1. 有道理。还要注意副本,因为如果将同一个集群复制到所有服务器,则有3台服务器,它会更慢(当然)
  2. 如果您不需要复杂的转换,我建议您使用ETL。如果它更慢,你可以用Java编写你的代码
  3. 和4.它受支持,但不支持来自oetl.sh脚本。您必须编写一个带有几行coed的Java类,它们(1)以embedded启动分布式服务器,然后运行ETL主类(com.orientechnologies.orient.etl.OETLProcessor)。