Question

我刚开始学习python 3.（我正在阅读python书，我有问题......）

我有问题需要阅读并找到html源代码中的关键词。

我写了代码打开网址。例如，

page =urllib.request.urlopen(some url)
text = page.read().decode("utf8")

因此，我假设文本包含所有html代码，文本是对象。

问题1。我想某种数组或arraylist来存储html源代码。但是，我不确定如何从“text”对象获取代码行并存储到某种数组。

问题2。 python是否有“包含”函数来从数组中找到特殊的关键字，如“堆栈溢出”？

感谢。

Answer 1

如果你想解析整个HTML文档结构，不要试图自己编程 - 就像Allendar所说的那样，并使用一个库。

如果您只想在文本中搜索并查找特定内容，请使用正则表达式（“re”模块）。

在传统的线条含义（CR / LF）中谈论HTML的“线条”并没有多大意义。整个页面可以在一行中。它是构造HTML的标签，而不是行。