获取textarea的内容

时间:2013-03-09 10:40:07

标签: python html

我正在解析HTML页面,每一页都有

<textarea name="content[country]">...</textarea>

只需要获得此textarea的内容。

我的python版本中没有lxml或其他html解析模块,因为它在文本编辑器环境中工作。

如何在名称为content[country]的textarea的开始和结束标记之间解析文本?

1 个答案:

答案 0 :(得分:0)

假设您仍然可以访问stdlib,那么您可以使用以下内容:

import xml.etree.ElementTree as ET

s = '<html><textarea name="content[country]">foo</textarea><textarea name="content[country]">bar</textarea></html>'
tree = ET.fromstring(s)
print [n.text for n in tree.iterfind('.//textarea[@name="content[country]"]')]
# ['foo', 'bar']

可怕的重新破解:

import re
print re.findall(r'<\s*textarea.*?>(.*?)<', s)