Question

我正在使用“请求”来获取网页的来源，

import requests
with requests.Session() as c:
url = 'http://somewebsite'
c.get(url)
print c.content

这输出了该网页的源代码，我需要提取部分代码。输出的部分是：

<b>String: </b><input type="text" value="abcdefghijklmnopqrst" /><br /><br />
<form name="submitform" action="some/index.php" method="POST"><br />
    Answer: <br />
    <input size="75" name="solution"><br /><br />
    <div style="text-align:center">
    <input name ="submitbutton" type="submit" value="Submit">
    </div>

这里我需要提取变量“value”的值，即“abcdefghijklmnopqrst”，我通过拆分完成了它，这样：

cool = (c.content).split('</b>')                                          
var1 = cool[1].split(' ')                                                  
var2 = var1[2].split('"')                                               
var3 = var2[1]
print var3

这给了我结果。

但是，我的问题是：有没有更好的方法来获得结果而不是使用多个变量和多个拆分？

以更好的方式从网页输出中提取价值？

0 个答案: