我有半结构化数据的txt文件,我必须通过spark-cassandra在cassandra中编写它。但是对于第一个我只在scala中解析的内容。
我的代码:
import java.io.File
import scala.io.Source
object parser extends App {
val path = "somepath"
val fileArray = (new java.io.File(path)).listFiles()
for (file <- fileArray)
for (line <- Source.fromFile(file).getLines())
那么如何解析每个字符串并获取值以将其放入cassandra? 例如我有(int,text,timestamp,int,text,char,int,text)? 我必须拆分分界线(&#34;&#34;)?把它们放在一个元组中?或者每个都转换成可读格式?
答案 0 :(得分:0)
你可能做的是将它作为带有分隔符的csv文件处理(&#34;&#34;)?所以让Spark为你解析。
val spark = SparkSession.builder.config(conf).getOrCreate()
val dataFrame = spark.read.option("inferSchema", "true").option("delimiter", " ").csv(csvfilePath)