Question

我拥有Scala 2.12，并按照link的要求导入了库avro4s。

基本上，我的avro模式如下：仅示例：

Schema: {"name": "person","type": "record","fields": [{"name": "address","type": {"type" : "record","name" : "AddressUSRecord","fields" : [{"name": "streetaddress", "type": "string"},{"name": "city", "type":"string"}]}}]}

所以我创建了3个案例类。

我基于这些类测试了架构，看起来不错。
因此，模式生成很好。

现在，根据案例类，我正在创建所需的对象。

当我尝试编写avro文件时，出现了空指针异常。

错误：

Exception in thread "main" java.lang.NullPointerException
    at org.apache.avro.util.Utf8$2.toUtf8(Utf8.java:123)
    at org.apache.avro.util.Utf8.getBytesFor(Utf8.java:172)
    at org.apache.avro.util.Utf8.<init>(Utf8.java:39)
    at com.sksamuel.avro4s.Encoder$StringEncoder$.encode(Encoder.scala:73)
    at com.sksamuel.avro4s.Encoder$StringEncoder$.encode(Encoder.scala:68)
    at com.sksamuel.avro4s.Encoder$.encodeField(Encoder.scala:401)
    at com.sksamuel.avro4s.Encoder$.encodeFieldLazy(Encoder.scala:379)
    at MyClass$$anon$4$$anon$5.encode(MyClass.scala:90)
    at MyClass$$anon$4$$anon$5.encode(MyClass.scala:90)
    at com.sksamuel.avro4s.Encoder$.encodeField(Encoder.scala:401)
    at com.sksamuel.avro4s.Encoder$.encodeFieldNotLazy(Encoder.scala:373)
    at MyClass$$anon$4.encode(MyClass.scala:90)
    at MyClass$$anon$4.encode(MyClass.scala:90)
    at com.sksamuel.avro4s.AvroDataOutputStream.$anonfun$x$1$2(AvroDataOutputStream.scala:35)
    at com.sksamuel.avro4s.AvroDataOutputStream.$anonfun$x$1$2$adapted(AvroDataOutputStream.scala:34)
    at com.sksamuel.avro4s.AvroDataOutputStream.write(AvroDataOutputStream.scala:46)
    at MyClass$.delayedEndpoint$MyClass$1(MyClass.scala:91)
    at MyClass$delayedInit$body.apply(MyClass.scala:42)
    at scala.Function0.apply$mcV$sp(Function0.scala:34)
    at scala.Function0.apply$mcV$sp$(Function0.scala:34)
    at scala.runtime.AbstractFunction0.apply$mcV$sp(AbstractFunction0.scala:12)
    at scala.App.$anonfun$main$1$adapted(App.scala:76)
    at scala.collection.immutable.List.foreach(List.scala:388)
    at scala.App.main(App.scala:76)
    at scala.App.main$(App.scala:74)
    at MyClass$.main(MyClass.scala:42)
    at MyClass.main(MyClass.scala)

代码：

//import java.io.File
import com.sksamuel.avro4s.{AvroOutputStream, AvroSchema}
import java.io.File

//case class Person(name: String, age: Int)
//case class Book(title: String, year: Int, owner: Person, authors: Seq[Person])
// case class as per schema

object MyClass extends App {
  val outFile = "/path/TestScala.avro"
   // val schema = AvroSchema[Book]
  println("Hello, World!")
   // println(schema)


  val head = header(
    prop1="val1"
    prop2=null

  )

  val pnlBody = pnlData(
    <corresponsing property vlaues, some with null>
  )

  val record = MyClass(header = head, body = pnlBody)

  val schema = AvroSchema[MyClass]
  println(schema)
  println(record)

  val os = AvroOutputStream.data[MyClass].to(new File(outFile)).build(schema)
  os.write(record)
  os.flush()
  os.close()

}

基本上，基于我拥有的架构，我想了解最终的记录对象应该如何？

更新：

基于@Antot和@Daniel的以下建议，我更改了标头和正文类，以对所有预期为空的值使用Option [String]。但是仍然是同样的问题。

更改标题和数据的案例类，这些案例类是根据模式和记录生成的。以下记录是否正确创建？

请告知？

更新2：
我认为Null的问题。预期记录具有很少的NULL属性。由于我更改为Option [String]，因此其值应为None且不为null。我是Scala的新手，所以仍然了解它的数据类型。

因此，现在将值从null更改为None即可。

但是，我还有一个问题。如果我的属性是Option [String]，它将如何转换为Avro？如果我的值是None，它会转换为Avro null吗？

Answer 1

您的问题是您的架构未将字段定义为可为空。如果您具有空值，那么架构中必须支持该值。要在Avro中执行此操作，您必须创建一个包含两种模式的“联合”-一种是NULL模式，一种是“实型”。例如，看看这个模式。

{
  "type": "record",
  "name": "MyClass",
  "namespace": "com.sksamuel.avro4s",
  "fields": [
    {
      "name": "a",
      "type": [
        "null",
        "string"
      ],
      "default": null
    }
  ]
}

这是一种记录类型com.sksamuel.avro4s.MyClass，具有一个字段a。然后a的类型可以是null或string。因此，写出这种类型的记录时，可以为字段a使用null或字符串。

现在，您不必手动创建此架构（就像在帖子中一样）。您可以使用AvroSchema宏根据案例类为您做魔术。

val schema = AvroSchema[MyClass]。

使用此宏时，如果将类型定义为Option[T]，则将创建可为空的联合。所以你可以做，

case class MyClass(a: Option[String])

您将得到与上述相同的模式。如果有，

case class MyClass(a: String)

那么架构将是：

{
  "type": "record",
  "name": "MyClass",
  "namespace": "com.sksamuel.avro4s",
  "fields": [
    {
      "name": "a",
      "type": "string"
    }
  ]
}

tl; dr

要么从将可为空字段定义为Option的案例类中创建模式，要么更新您的手动模式以使用{null，T}的并集。

Scala：如何使用avro4s将嵌套/复杂的数据转换为avro？

1 个答案: