如何从IBM DSX Scala-Spark Notebook访问文本文件

时间:2018-02-04 03:34:02

标签: scala apache-spark text-files data-science-experience

这篇文章很有用,如果:

  • 您创建了一个IBM DSX笔记本,其中包含“Language = Scala”和“Spark version = 2.1 OR 2.0”[未尝试其他版本]
  • AND您正在尝试访问从个人计算机上传到IBM Cloud Object Storage的文本文件[未尝试其他格式]

1 个答案:

答案 0 :(得分:0)

要访问Cloud Object Storage中的文件,您需要以CloudObjectStorage实例的形式提供文件的路径。在文件凭据之后,将以下行添加到您的代码中:

var soc = new CloudObjectStorage(sc, credentials, null, "bluemix_cos")
var myFile = sc.textFile(soc.url("your_bucket","data.txt"))

在上面的第二个代码行中,“your_bucket”是文件凭证中“BUCKET”的值。

在我们好好去之前,我们还有一件事需要做。 CloudObjectStorage构造函数以CSV文件的方式接受凭据。幸运的是,两种格式之间的主要区别是HashMap键名称;因此,我们可以通过手动更改上述凭据轻松管理此问题,如下所述:

"IBM_API_KEY_ID" to "apiKey"

"IAM_SERVICE_ID" to "serviceId"

"ENDPOINT" to "endPoint"

"IBM_AUTH_ENDPOINT" to "iamServiceEndpoint"

有关详细信息,请访问以下链接: http://rehmans.org/2018/01/31/how-to-access-a-text-file-from-ibm-dsx-scala-spark-notebook/