我想用node.js抓住我的大学网站(moodle),但我还没找到能够做到这一点的无头浏览器。我使用RoboBrowser在python中完成了10行代码:
from robobrowser import RoboBrowser
url = "https://cas.upc.edu/login?service=https%3A%2F%2Fatenea.upc.edu%2Fmoodle%2Flogin%2Findex.php%3FauthCAS%3DCAS"
browser = RoboBrowser()
browser.open(url)
form = browser.get_form()
form['username'] = 'myUserName'
form['password'] = 'myPassword'
browser.submit_form(form)
browser.open("http://atenea.upc.edu/moodle/")
print browser.parsed
问题是该网站需要身份验证。你能帮助我吗?谢谢!
PD:我认为这可能很有用https://www.npmjs.com/package/form-scraper,但我无法让它发挥作用。
答案 0 :(得分:0)
假设您想要阅读第三方网站并“搜索”特定信息,您可以使用cheerio这样的库在Node中实现此目的。
Cheerio是“专为服务器设计的核心jQuery的精简实现”。这意味着给定一个DOM(或其中一部分)的String表示,cheerio可以像jQuery一样遍历它。
example from Max Ogden显示如何使用request
模块从远程服务器获取HTML,然后将其传递给cheerio
:
var $ = require('cheerio')
var request = require('request')
function gotHTML(err, resp, html) {
if (err) return console.error(err)
var parsedHTML = $.load(html)
// get all img tags and loop over them
var imageURLs = []
parsedHTML('a').map(function(i, link) {
var href = $(link).attr('href')
if (!href.match('.png')) return
imageURLs.push(domain + href)
})
}
var domain = 'http://substack.net/images/'
request(domain, gotHTML)
答案 1 :(得分:0)
Selenium 支持多种语言、多种平台和多种浏览器。