Python逐行读取或存储html源代码

时间:2013-04-10 22:20:18

标签: python html python-3.x

我刚开始学习python 3.(我正在阅读python书,我有问题......)

我有问题需要阅读并找到html源代码中的关键词。

我写了代码打开网址。 例如,

page =urllib.request.urlopen(some url)
text = page.read().decode("utf8")

因此,我假设文本包含所有html代码,文本是对象。

问题1。 我想某种数组或arraylist来存储html源代码。 但是,我不确定如何从“text”对象获取代码行并存储到某种数组。

问题2。 python是否有“包含”函数来从数组中找到特殊的关键字,如“堆栈溢出”?

感谢。

1 个答案:

答案 0 :(得分:1)

如果你想解析整个HTML文档结构,不要试图自己编程 - 就像Allendar所说的那样,并使用一个库。

如果您只想在文本中搜索并查找特定内容,请使用正则表达式(“re”模块)。

在传统的线条含义(CR / LF)中谈论HTML的“线条”并没有多大意义。整个页面可以在一行中。它是构造HTML的标签,而不是行。