标签: python
我正在尝试从包含表的大文件中提取数据。我感兴趣的属性之一是一个标记每个表部分的标题。我想将此标记的内容作为表本身的值。
我已经考虑过使用正则表达式将html分开,使用结果创建BeautifulSoup对象,然后对其进行解析,但是鉴于文件的大小,这是一项昂贵的操作。