Question

我对此非常陌生 - 我第一次写任何类型的网络相关脚本。我正在尝试创建一个脚本，在浏览器中提交变量URL，然后从结果页面的特定DOM元素中读取数据。

基本上，我有很多单词。我想自动化转到每个单词结尾的URL的过程（例如：如果我的列表是['apple'，'banana'，'carrot']，我的基本URL是www.example.com，我想要访问www.example.com/apple,www.example.com/banana,www.example.com/carrot）。然后，在每个页面，我知道我想从中读取数据的特定DOM元素，然后将其返回给我。

我该怎么做呢？任何正确方向的指针都会很棒！在此先感谢:)

Answer 1

我建议使用Python，使用urllib2 library获取HTML页面，然后使用LXML library来解析它们。然后提取特定已知DOM元素的内容就像这样简单：

import lxml.html
from lxml import etree
import urllib2
response = urllib2.urlopen('http://example.com/abc/123')
html_text = response.read()
parsed = lxml.html.document_fromstring(html_text)
result = parsed.xpath('/html/body/some/element/path')
print result.text

对于其他类型的数据提取（属性等），请参阅LXML文档;它很容易使用。

如何创建提交URL并从结果页面读取数据的脚本？

1 个答案: