我正在开发一个刮板。当我尝试访问更多页面以进行剪贴时,我有时只能做到这一点……我认为这是由于使用硒或请求(或两者)导致的,因为我有时可以获取剪贴的内容,而且我很确定代码本身(功能...)是“正确的”。
我想显示所有代码(很长),但是做了一段代码,以便您理解逻辑
我基本上是从主页上的href中获取网址,然后将其用于进一步废弃那些链接以获得一些东西。
var express = require('express');
var path = require('path');
var favicon = require('serve-favicon');
var logger = require('morgan');
var cookieParser = require('cookie-parser');
var bodyParser = require('body-parser');
var session = require('express-session');
var passport = require('passport');
var expressValidator = require('express-validator');
var LocalStrategy = require('passport-local').Strategy;
var multer = require('multer');
var upload = multer({dest: './uploads'});
var flash = require('connect-flash');
var mongo = require('mongodb');
var mongoose = require('mongoose');
var db = mongoose.connection;
var routes = require('./routes/index');
var users = require('./routes/users');
var app = express();
// view engine setup
app.set('views', path.join(__dirname, 'views'));
app.set('view engine', 'jade');
// uncomment after placing your favicon in /public
//app.use(favicon(path.join(__dirname, 'public', 'favicon.ico')));
app.use(logger('dev'));
app.use(bodyParser.json());
app.use(bodyParser.urlencoded({ extended: false }));
// Handle Sessions
app.use(session({
secret:'secret',
saveUninitialized: true,
resave: true
}));
// Passport
app.use(passport.initialize());
app.use(passport.session());
// Validator
app.use(expressValidator({
errorFormatter: function(param, msg, value) {
var namespace = param.split('.')
, root = namespace.shift()
, formParam = root;
while(namespace.length) {
formParam += '[' + namespace.shift() + ']';
}
return {
param : formParam,
msg : msg,
value : value
};
}
}));
app.use(cookieParser());
app.use(express.static(path.join(__dirname, 'public')));
app.use(flash());
app.use(function (req, res, next) {
res.locals.messages = require('express-messages')(req, res);
next();
});
app.use('/', routes);
app.use('/users', users);
// catch 404 and forward to error handler
app.use(function(req, res, next) {
var err = new Error('Not Found');
err.status = 404;
next(err);
});
// error handlers
// development error handler
// will print stacktrace
if (app.get('env') === 'development') {
app.use(function(err, req, res, next) {
res.status(err.status || 500);
res.render('error', {
message: err.message,
error: err
});
});
}
// production error handler
// no stacktraces leaked to user
app.use(function(err, req, res, next) {
res.status(err.status || 500);
res.render('error', {
message: err.message,
error: {}
});
});
module.exports = app;
当它起作用时,它实际上会打开url,因为随后我可以看到感兴趣的内容已被废弃。但是大多数时候,当使用功能 get_elements(self)处理网址时,我得到:
InvalidArgumentException:无效参数:“ url”必须为字符串
(会话信息:headless chrome = 78.0.3904.97)
而且我确定我会传递一个字符串作为url来打开(因为显示了从头开始检索到的所有url),并且我也可以手动打开这些url。 某些url链接是否存在问题,以致硒和/或请求无法进一步处理,请链接某些编码?
最后一件事:这是线程中的Reddit链接
谢谢!
编辑:我使用chromdriver作为webdriver