我正在尝试为某些非常大的字段生成ts_vector(它们大于最大ts_vector的限制)。所以我想知道如何将文本剥离为特定的字节大小(最大1048575字节)。
我曾尝试使用 substring ,但它只对特定数量的字符进行切片,并且大多数情况下小于字节大小。
答案 0 :(得分:0)
我将使用字符串的前250000个字符作为子字符串,然后从最后一个空格开始截断所有内容(以避免部分单词)并使用它。
这是一种安全的简单方法,因为您永远不会遇到超过4个字节的UTF-8字符。另外(但这不是一个技术论点),如果文本的相关关键字没有出现在前250000个字符中,则可能根本不会出现。