Question

我有半结构化数据的txt文件，我必须通过spark-cassandra在cassandra中编写它。但是对于第一个我只在scala中解析的内容。

我的代码：

import java.io.File
import scala.io.Source

object parser extends App {
  val path = "somepath"
  val fileArray = (new java.io.File(path)).listFiles()
   for (file <- fileArray)
    for (line <- Source.fromFile(file).getLines())

那么如何解析每个字符串并获取值以将其放入cassandra？例如我有（int，text，timestamp，int，text，char，int，text）？我必须拆分分界线（＆＃34;＆＃34;）？把它们放在一个元组中？或者每个都转换成可读格式？

Answer 1

你可能做的是将它作为带有分隔符的csv文件处理（＆＃34;＆＃34;）？所以让Spark为你解析。

val spark = SparkSession.builder.config(conf).getOrCreate()
val dataFrame = spark.read.option("inferSchema", "true").option("delimiter", " ").csv(csvfilePath)

用字符串中的不同类型解析txt

1 个答案: