从AWS S3到MarkLogic 8的CSV文件

时间:2017-05-05 22:47:15

标签: amazon-s3 marklogic marklogic-8 mlcp

来自AWS S3存储桶的csv文件是否可以配置为直接进入ML或文件是否需要降落到某处然后使用MCLP来获取CSV文件?

1 个答案:

答案 0 :(得分:2)

假设您在S3 Bucket中有CSV文件,并且CSV文件中的一行将作为单个XML记录插入...在您的问题中并不清楚,但这是最常见的用例。如果您的计划只是将文件拉入并将其作为CSV文件保留,则可以使用未记录的XQuery函数来访问S3存储桶并将文件拉出来。无论如何,MLCP文档非常有助于理解这个功能多样且功能强大的工具。

根据文档(https://developer.marklogic.com/products/mlcp),支持的数据源是:

  • 本地文件系统
  • HDFS
  • MarkLogic存档
  • 另一个MarkLogic数据库

您可以将S3 Bucket安装到EC2上的本地文件系统,以避免使MLCP可以访问文件的需要。谷歌是你的朋友,如果这很重要的话。我个人还没有看到一种生产稳定的方法,但是自从我尝试以来已经很长时间了。

无论如何,您需要在受支持的源上提供这些文件,在这种情况下很可能是文件系统位置,可以运行MLCP并可以访问文件。我想这就是让文件落在某处的意思。 MLCP可以在导入模式下处理分隔文件。该文档非常适合理解所有选项。