在Go

时间:2015-07-20 08:32:19

标签: go

我在Go中有一个大字符串,我想把它拆分成更小的块。每个块应至多10kb。这些块应该用符文分割(不在符文中间)。

在go中执行此操作的惯用方法是什么?我应该只是循环字符串字节的范围?我错过了一些有用的stdlib包吗?

3 个答案:

答案 0 :(得分:8)

使用RuneStart扫描符文边界。在边界处切割字符串。

var chunks []string
for len(s) > 10000 {
    i := 10000
    for i >= 10000 - utf8.UTFMax && !utf8.RuneStart(s[i]) {
        i--
    }
    chunks = append(chunks, s[:i])
    s = s[i:]
}
if len(s) > 0 {
    chunks = append(chunks, s)
}

使用该方法,应用程序检查块边界处的几个字节而不是整个字符串。

编写代码是为了在字符串不是有效的UTF-8编码时保证进度。您可能希望将此情况视为错误或以不同方式拆分字符串。

playground example

答案 1 :(得分:3)

分割字符串(或任何切片或数组)的惯用方法是使用切片。由于你想用符文分割,你必须循环遍历整个字符串,因为你事先并不知道每个切片将包含多少字节。

slices := []string{}
count := 0
lastIndex := 0
for i, r := range longString {
    count++
    if count%10001 == 0 {
        slices = append(slices, longString[lastIndex:i])
        lastIndex = i
    }
}

警告:我没有运行或测试过此代码,但它传达了一般原则。循环遍历符号的字符串循环,而不是字节automatically decoding the UTF-8。并使用[]的切片运算符longString represents your new strings as subslices,这意味着不需要复制字符串中的字节。

请注意,i是字符串中的字节索引,并且在每次循环迭代中可能会增加1倍。

编辑:

抱歉,我没有看到您想要限制字节数,而不是Unicode代码点。你也可以相对容易地实现它。

slices := []string{}
lastIndex := 0
lastI := 0
for i, r := range longString {
    if i-lastIndex > 10000 {
        slices = append(slices, longString[lastIndex:lastI])
        lastIndex = lastI
    }
    lastI = i
}

A working example at play.golang.org,它还会处理字符串末尾的剩余字节。

答案 2 :(得分:0)

结帐this code

package main

import (
    "fmt"
    "math/rand"
    "time"
)

func init() {
    rand.Seed(time.Now().UnixNano())
}

var alphabet = []rune{
    'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p',
    'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'æ', 'ø', 'å', 'A', 'B', 'C',
    'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S',
    'T', 'U', 'V', 'W', 'X', 'Y', 'Z', 'Æ', 'Ø', 'Å',
}

func randomString(n int) string {
    b := make([]rune, n, n)
    for k, _ := range b {
        b[k] = alphabet[rand.Intn(len(alphabet))]
    }
    return string(b)
}

const (
    chunkSize int  = 100
    lead4Mask byte = 0xF8 // must equal 0xF0
    lead3Mask byte = 0xF0 // must equal 0xE0
    lead2Mask byte = 0xE0 // must equal 0xC0
    lead1Mask byte = 0x80 // must equal 0x00
    trailMask byte = 0xC0 // must equal 0x80
)


func longestPrefix(s string, n int) int {
    for i := (n - 1); ; i-- {
        if (s[i] & lead1Mask) == 0x00 {
            return i + 1
        }
        if (s[i] & trailMask) != 0x80 {
            return i
        }
    }
    panic("never reached")
}

func main() {
    s := randomString(100000)
    for len(s) > chunkSize {
        cut := longestPrefix(s, chunkSize)
        fmt.Println(s[:cut])
        s = s[cut:]
    }
    fmt.Println(s)
}

我使用丹麦语/挪威语字母生成一个100000符文的随机字符串。

然后,"魔术"位于longestPrefix。要帮助您使用位移部件,请参考下图:

enter image description here

该程序打印出相应的最长块< = chunkSize,每行一个。