嘿,所以我的问题可能是基本的,但我对如何实现它有点迷失。
如果我正在阅读文件,例如HTML文件。如何获取文件的特定部分。例如,我想做的是
blahblahblahblah<br>blahblahblah
如何找到以&lt;开头的标签?并以&gt;结束并抓住Python里面的字符串?
答案 0 :(得分:1)
这是一个非常广泛的问题,有两种方法可以从html
文件中检索单个字符串。
第一个选项是使用BeautifulSoup这样的库解析文件,此选项也适用于xml
文件。
第二个选项是,如果文件相对较小,您可以使用regex
找到所需的字符串并将其返回。
我建议使用第一个选项,如果你使用像BeautifulSoup这样的库你有很多功能,例如。找到所选标签的父元素,依此类推。