HTML页面和Python:提取正文并在其中划分文本

时间:2014-07-02 16:52:52

标签: python beautifulsoup html-parser

大故事

我想改进一个读取EPUB文件的Python应用程序。我想将选项添加到" memorize"读者停止的最后一个地方。这是the link to this application on github


目前,我可以保存用户停止的最后一句话。我想用这些词语在文本中找到它们并从这个地方向读者展示。但是,我不知道如何划分从html文件正文中提取的文本并将其提供给格式化程序。

以下是所有这些发生的摘录:

''' text dump of html '''
class Parser(htmllib.HTMLParser):
    def anchor_end(self):
        self.anchor = None
    def handle_image(self, source, alt, ismap, alight, width, height):
        global basedir
        self.handle_data(
            '[img="{0}{1}" "{2}"]'.format(basedir, source, alt)
        )

class Formatter(formatter.AbstractFormatter):
    pass

class Writer(formatter.DumbWriter):
    def __init__(self, fl, maxcol=72):
        formatter.DumbWriter.__init__(self, fl)
        self.maxcol = maxcol
    def send_label_data(self, data):
        self.send_flowing_data(data)
        self.send_flowing_data(' ')

o = StringIO.StringIO()
p = Parser(Formatter(Writer(o, maxcol)))
p.feed(html_snippet)
p.close()

return o.getvalue()

我认为我必须干预这一行

p.feed(html_snippet)

那么伙计们,你能告诉我现在能做些什么吗?

关于

0 个答案:

没有答案