我对此非常陌生 - 我第一次写任何类型的网络相关脚本。我正在尝试创建一个脚本,在浏览器中提交变量URL,然后从结果页面的特定DOM元素中读取数据。
基本上,我有很多单词。我想自动化转到每个单词结尾的URL的过程(例如:如果我的列表是['apple','banana','carrot'],我的基本URL是www.example.com,我想要访问www.example.com/apple,www.example.com/banana,www.example.com/carrot)。然后,在每个页面,我知道我想从中读取数据的特定DOM元素,然后将其返回给我。
我该怎么做呢?任何正确方向的指针都会很棒!在此先感谢:)
答案 0 :(得分:0)
我建议使用Python,使用urllib2 library获取HTML页面,然后使用LXML library来解析它们。然后提取特定已知DOM元素的内容就像这样简单:
import lxml.html
from lxml import etree
import urllib2
response = urllib2.urlopen('http://example.com/abc/123')
html_text = response.read()
parsed = lxml.html.document_fromstring(html_text)
result = parsed.xpath('/html/body/some/element/path')
print result.text
对于其他类型的数据提取(属性等),请参阅LXML文档;它很容易使用。