从html doc

时间:2015-10-12 15:14:53

标签: python beautifulsoup

你好我想从html doc获取一个特定的部分,这部分与div相关并封装在span标签中,该部分通常是文档的大部分。

self.contents = BeautifulSoup(convert_pdf_to_html(self.path), 'html.parser')
self.keywords = self.contents.find('span',text=re.compile("(.*keywords.*|.*key-words.*)",re.IGNORECASE)).parent

问题是我总是有一个换行符,这使我无法检索相关的div,如:

<span style="font-family: EICMDB+AdvTrebu-B; font-size:8px">keywords
<br/></span>

即使使用正则表达式,它也不起作用,也没有删除文本的选项

1 个答案:

答案 0 :(得分:1)

首先让我告诉你,你的正则表达式有点不对,你必须以-

逃避\-

无论如何类似的东西对我有用,但最近我也无法将正则表达式与find结合起来

contents = bs(open(path), 'html.parser')
keywords = contents.find(text = re.compile(ur"key\-?words",re.I|re.U)).parent