Question

大故事

我想改进一个读取EPUB文件的Python应用程序。我想将选项添加到＆＃34; memorize＆＃34;读者停止的最后一个地方。这是the link to this application on github

目前，我可以保存用户停止的最后一句话。我想用这些词语在文本中找到它们并从这个地方向读者展示。但是，我不知道如何划分从html文件正文中提取的文本并将其提供给格式化程序。

以下是所有这些发生的摘录：

''' text dump of html '''
class Parser(htmllib.HTMLParser):
    def anchor_end(self):
        self.anchor = None
    def handle_image(self, source, alt, ismap, alight, width, height):
        global basedir
        self.handle_data(
            '[img="{0}{1}" "{2}"]'.format(basedir, source, alt)
        )

class Formatter(formatter.AbstractFormatter):
    pass

class Writer(formatter.DumbWriter):
    def __init__(self, fl, maxcol=72):
        formatter.DumbWriter.__init__(self, fl)
        self.maxcol = maxcol
    def send_label_data(self, data):
        self.send_flowing_data(data)
        self.send_flowing_data(' ')

o = StringIO.StringIO()
p = Parser(Formatter(Writer(o, maxcol)))
p.feed(html_snippet)
p.close()

return o.getvalue()

我认为我必须干预这一行

p.feed(html_snippet)

那么伙计们，你能告诉我现在能做些什么吗？

关于

HTML页面和Python：提取正文并在其中划分文本

0 个答案: