我刚开始学习python 3.(我正在阅读python书,我有问题......)
我有问题需要阅读并找到html源代码中的关键词。
我写了代码打开网址。 例如,
page =urllib.request.urlopen(some url)
text = page.read().decode("utf8")
因此,我假设文本包含所有html代码,文本是对象。
问题1。 我想某种数组或arraylist来存储html源代码。 但是,我不确定如何从“text”对象获取代码行并存储到某种数组。
问题2。 python是否有“包含”函数来从数组中找到特殊的关键字,如“堆栈溢出”?
感谢。
答案 0 :(得分:1)
如果你想解析整个HTML文档结构,不要试图自己编程 - 就像Allendar所说的那样,并使用一个库。
如果您只想在文本中搜索并查找特定内容,请使用正则表达式(“re”模块)。
在传统的线条含义(CR / LF)中谈论HTML的“线条”并没有多大意义。整个页面可以在一行中。它是构造HTML的标签,而不是行。