我正在实施Google Translation API,一次最多只需要5000个字符,因此我需要将较大的文档拆分为较小的文档并发送多个API请求。
因此,我需要将我的内容分成尽可能长(但小于5000)并且已被拆分的块,希望不会在句子的中间,这会使翻译难以为Google处理。< / p>
因此,我想给我的方法一个在分割时应该寻找的字符数组。
</div>
</p>
</section>
</blockquote>
</br>
.
(点空间)对此有什么好处?
答案 0 :(得分:2)
默认情况下,Regexp是贪婪的。
.{0,4980}(\<\/div\>|\<\/p\>|\<\/section\>|\<\/blockquote\>|\<\/br\>|\.\s)
应该给出以你的一个分隔符结尾的最长字符串。