读取文件并查找特定字符串

时间:2015-10-22 20:21:08

标签: python-3.x

嘿,所以我的问题可能是基本的,但我对如何实现它有点迷失。

如果我正在阅读文件,例如HTML文件。如何获取文件的特定部分。例如,我想做的是

blahblahblahblah<br>blahblahblah

如何找到以&lt;开头的标签?并以&gt;结束并抓住Python里面的字符串?

1 个答案:

答案 0 :(得分:1)

这是一个非常广泛的问题,有两种方法可以从html文件中检索单个字符串。

第一个选项是使用BeautifulSoup这样的库解析文件,此选项也适用于xml文件。

第二个选项是,如果文件相对较小,您可以使用regex找到所需的字符串并将其返回。

我建议使用第一个选项,如果你使用像BeautifulSoup这样的库你有很多功能,例如。找到所选标签的父元素,依此类推。