为了尝试重写PHP的similar_text算法,我尝试了一些不同的方法。所有这些都取得了一定的成功,但最终都失败了。
第一次尝试:我尝试从PHP源代码重写它。 C优雅地使用指针使得在Scala中完全相同的实现看起来是不可能的并且是干净的。
第二次尝试:我尝试从PHP similar_text() in java上发布的Java函数重写它。不幸的是,该函数在Java中不起作用,所以永远不要将它移植到Scala。
第三次(当前)尝试:我目前正在尝试将此JavaScript实现转换为Scala:http://phpjs.org/functions/similar_text/。我以前在JavaScript中使用它,它似乎正常运行。我在Scala中的翻译(下面)运行不正常。它可以让你在1或2个相似性索引中,但它通常不是它的PHP对应结果的100%。
def similartext(first:String,second:String) : Int = {
if (first == null || second == null) {
0
}
var pos1:Int = 0
var pos2:Int = 0
var max:Int = 0
var sum:Int = 0
var l:Int = 0
val firstLength:Int = first.length
val secondLength:Int = second.length
for (p <- 0 until firstLength) {
for (q <- 0 until secondLength) {
while(p+l < firstLength && q+l < secondLength && (first.charAt(p+l) == second.charAt(q+l))) {
if (l > max) {
println("[" + p + "," + q + "," + l + "]" + first.charAt(p+l) + " | " + second.charAt(q+l))
max = l
pos1 = p
pos2 = q
}
l += 1
}
}
}
sum = max;
if (sum > 0) {
if (pos1 > 0 && pos2 > 0) {
sum += similartext(first.substring(0, pos2), second.substring(0, pos2))
}
if ((pos1 + max < firstLength) && (pos2 + max < secondLength)) {
sum += similartext(first.substring(pos1 + max, (pos1 + max) + (firstLength - pos1 - max)), second.substring(pos2 + max, (pos2 + max) + (secondLength - pos2 - max)))
}
}
sum;
}
试验:
(Scala)val st = similartext("apple","aple") Yields 3
(PHP)$similar = similar_text("apple","aple"); Yields 4
(Scala)val st = similartext("starbucks","stharducks") Yields 8
(PHP)$similar = similar_text("starbucks","stharducks"); Yields 8
(Scala)val st = similartext("hello earth!","hello world!") Yields 10
(PHP)$similar = similar_text("hello earth!","hello world!"); Yields 8
有没有人对这里出了什么问题有任何想法?
答案 0 :(得分:7)
这是一个提示:仔细观察JavaScript版本的第28行 - 特别是该行的最后一个字符。这就是你的实现不同的地方。 (对于每对索引,您也不会将l
重置为零,但这不是最重要的问题。)
顺便说一下,这是一个var
- 免费的Scala版本:
def similarText(x: String, y: String): Int = {
val indices = for {
(s, p) <- x.tails.zipWithIndex
(t, q) <- y.tails.zipWithIndex
l = ((s zip t) takeWhile Function.tupled(_ == _)).size
} yield (p, q, l)
val (pos1, pos2, max) = indices.maxBy(_._3)
if (max == 0) max else max +
similarText(x take pos1, y take pos2) +
similarText(x drop (pos1 + max), y drop (pos2 + max))
}
这是相当不合适的 - 我相信你可以很容易地使它更加简洁高效。
还有额外的功劳:JavaScript版本中存在一个错误 - 例如"aabcd"
和"abcabcd"
,结果与PHP(或我的)不一样。