Question

我想定义一些处理自然语言文本的函数。这些函数中的每一个都为文本添加了一些“注释”，例如：

class Annotation(val begin: Int, val end: Int)
class Sentence(begin: Int, end: Int) extends Annotation(begin, end)
class Token(begin: Int, end: Int) extends Annotation(begin, end)

所以我可能有一个Tokenizer函数添加了Token注释，一个SentenceSegmenter函数添加了Sentence注释等等。这些函数对它们的运行顺序有一些限制。例如，Tokenizer可能需要Sentence注释，因此必须在SentenceSegmenter之后运行。在这种情况下，如果我不小心以错误的顺序组合这些函数，我想得到一个编译错误。所以sentenceSegmenter andThen tokenizer应该编译，但tokenizer andThen sentenceSegmenter不应该编译。

以下是我的尝试。我为文本定义了一个特殊的容器类型，其中type参数指定（通过复合类型）注释已添加到文本中，然后函数适当地指定它们的类型参数，以确保它们在先决条件之前无法运行是复合类型的一部分。

trait AnalyzedText[T] {
  def text: String
  def ++[U](annotations: Iterator[U]): AnalyzedText[T with U] 
}

val begin: (AnalyzedText[Any] => AnalyzedText[Any]) = identity
def sentenceSegmenter[T]: (AnalyzedText[T] => AnalyzedText[T with Sentence]) = ???
def tokenizer[T <: Sentence]: (AnalyzedText[T] => AnalyzedText[T with Token]) = ???

// compiles
val pipeline = begin andThen sentenceSegmenter andThen tokenizer
// fails to compile -- good!
//val brokenPipeline = begin andThen tokenizer andThen sentenceSegmenter

到目前为止，这么好。当我尝试实际定义其中一个函数时出现问题。例如，我想定义tokenizer之类的内容：

def tokenizer[T <: Sentence]: (AnalyzedText[T] => AnalyzedText[T with Token]) =
  text => text ++ "\\S+".r.findAllMatchIn(text.text).map(m => new Token(m.start, m.end))

但是Scala编译器无法弄清楚如何推断++方法的类型参数，除非我手动指定类型参数text.++[Token](...)，否则会产生错误：

type mismatch;  found: Iterator[Token]  required: Iterator[Nothing]

有没有办法让这个类型参数被推断出来？或者，我是否认为这个问题错了？有没有更好的方法来捕获Scala中的这些函数组合约束？

Answer 1

这看起来an awful lot like a bug。在此期间，有一个非常简单的解决方法 - 只需将处理器定义为方法并省略返回类型：

def tokenizer[T <: Sentence](text: AnalyzedText[T]) =
  text ++ "\\S+".r.findAllMatchIn(text.text).map(m => new Token(m.start, m.end))

现在您可以用完全相同的方式定义pipeline，并且eta-expansion（§6.26.5）会将方法转换为函数。

作为一个脚注：根据上面tokenizer的定义，奇怪的部分是以下情况很好：

def tokFunc[T <: Sentence]: (AnalyzedText[T] => AnalyzedText[T with Token]) =
  tokenizer _

我瞥了一眼the issue tracker，但没有找到任何明显相关的东西。如果你有时间，可能值得挖掘更多问题并提交问题或发送电子邮件至one of the lists。

scala中函数组合顺序的编译时约束

1 个答案: