使用硒渲染网址时出现问题,并要求报废

时间:2019-11-08 14:08:41

标签: python-3.x selenium web-scraping python-requests

我正在开发一个刮板。当我尝试访问更多页面以进行剪贴时,我有时只能做到这一点……我认为这是由于使用硒或请求(或两者)导致的,因为我有时可以获取剪贴的内容,而且我很确定代码本身(功能...)是“正确的”。

我想显示所有代码(很长),但是做了一段代码,以便您理解逻辑

我基本上是从主页上的href中获取网址,然后将其用于进一步废弃那些链接以获得一些东西。

var express = require('express');
var path = require('path');
var favicon = require('serve-favicon');
var logger = require('morgan');
var cookieParser = require('cookie-parser');
var bodyParser = require('body-parser');
var session = require('express-session');
var passport = require('passport');
var expressValidator = require('express-validator');
var LocalStrategy = require('passport-local').Strategy;
var multer = require('multer');
var upload = multer({dest: './uploads'});
var flash = require('connect-flash');
var mongo = require('mongodb');
var mongoose = require('mongoose');
var db = mongoose.connection;

var routes = require('./routes/index');
var users = require('./routes/users');

var app = express();

// view engine setup
app.set('views', path.join(__dirname, 'views'));
app.set('view engine', 'jade');

// uncomment after placing your favicon in /public
//app.use(favicon(path.join(__dirname, 'public', 'favicon.ico')));
app.use(logger('dev'));
app.use(bodyParser.json());
app.use(bodyParser.urlencoded({ extended: false }));

// Handle Sessions
app.use(session({
  secret:'secret',
  saveUninitialized: true,
  resave: true
}));

// Passport
app.use(passport.initialize());
app.use(passport.session());

// Validator
app.use(expressValidator({
  errorFormatter: function(param, msg, value) {
      var namespace = param.split('.')
      , root    = namespace.shift()
      , formParam = root;

    while(namespace.length) {
      formParam += '[' + namespace.shift() + ']';
    }
    return {
      param : formParam,
      msg   : msg,
      value : value
    };
  }
}));

app.use(cookieParser());
app.use(express.static(path.join(__dirname, 'public')));

app.use(flash());
app.use(function (req, res, next) {
  res.locals.messages = require('express-messages')(req, res);
  next();
});

app.use('/', routes);
app.use('/users', users);

// catch 404 and forward to error handler
app.use(function(req, res, next) {
  var err = new Error('Not Found');
  err.status = 404;
  next(err);
});

// error handlers

// development error handler
// will print stacktrace
if (app.get('env') === 'development') {
  app.use(function(err, req, res, next) {
    res.status(err.status || 500);
    res.render('error', {
      message: err.message,
      error: err
    });
  });
}

// production error handler
// no stacktraces leaked to user
app.use(function(err, req, res, next) {
  res.status(err.status || 500);
  res.render('error', {
    message: err.message,
    error: {}
  });
});


module.exports = app;

当它起作用时,它实际上会打开url,因为随后我可以看到感兴趣的内容已被废弃。但是大多数时候,当使用功能 get_elements(self)处理网址时,我得到:

  

InvalidArgumentException:无效参数:“ url”必须为字符串
  (会话信息:headless chrome = 78.0.3904.97)

而且我确定我会传递一个字符串作为url来打开(因为显示了从头开始检索到的所有url),并且我也可以手动打开这些url。 某些url链接是否存在问题,以致硒和/或请求无法进一步处理,请链接某些编码?

最后一件事:这是线程中的Reddit链接

谢谢!

编辑:我使用chromdriver作为webdriver

0 个答案:

没有答案