使用Python将OCR文本分隔成行

时间:2015-01-18 22:51:01

标签: python ocr

我要做的是从段落创建列表行。线条的宽度不能超过既定的宽度。 这是一个应该解决这个问题的类,这里是代码:

from font import Font

class Text:
        def __init__(self, text, limit, size):
                self.text = text
                self.limit = limit
                self.size = size        
                self.setText()
        def setText(self):
                textList = self.text.split(' ')
                self.newList = tempo = []
                spaceWidth = Font(self.size, ' ').width
                count = 0
                for x in textList:
                        word = Font(self.size, x)
                        count = count + word.width + spaceWidth
                        if count >= self.limit:
                                self.newList.append(' '.join(tempo))
                                tempo = []; tempo = [x]
                                count = word.width
                        else:
                                tempo.append(x)
                self.newList.append(' '.join(tempo))

你可以看到我正在使用另一个名为Font的类,这里是:

from PIL import Image,ImageFont

class Font:
        def __init__(self, fontSize, text):
                self.font = ImageFont.truetype('tomnr.ttf', fontSize)
                self.width, self.height = self.font.getsize(text)

代码中没有执行错误,但结果不正确:例如,

from text import Text

text = Text("Art inspired apparel for Creative Individuals. Do you SurVibe?", 452, 25)

print text.newList

这段代码应该做的是创建最大的行。宽度452像素。它应该打印

['Art inspired apparel for Creative', 'Individuals. Do you SurVibe?']

但是打印出来:

['Art', 'inspired', 'apparel', 'for', 'Creative', 'Art inspired apparel for Creative', 'Individuals. Do you SurVibe?']

我无法知道发生了什么。我认为我的循环很好,一切运行顺利!我很确定这是一个愚蠢的错误,但我自己无法弄明白。提前致谢。

1 个答案:

答案 0 :(得分:1)

错误在这里:

self.newList = tempo = []

两个变量都指向同一个列表。