如何在python中编码掉html和特殊字符?

时间:2018-11-25 15:39:55

标签: python regex

  

1543159687.4969957 ::我认为我已经深入实验以提供更新:去年,《人类之子》是免费的   用于Blac \ u2026 https://t.co/M3HR5fAoFZ“

这是我得到的结果。我想创建一个正则表达式,以用空格替换\ u2019和\ u2026之类的特殊元素。它们始终以“ \ u”开头,并继续增加四个字符。

我也想摆脱html。它始终以“ https://t.co/”开头,并持续10个字符。

我已经尝试过下面的代码,但这显然是错误的。

tweet = re.sub("@[\\u].{4}", "", tweet)

1 个答案:

答案 0 :(得分:0)

这些'use strict'; module.exports = (sequelize, DataTypes) => { const Parcel = sequelize.define('Parcel', { name: { type: DataTypes.STRING, allowNull: false }, delivered: { type: DataTypes.BOOLEAN, defaultValue: false }, presentLoc: { type: DataTypes.STRING, allowNull: false }, destination: { type: DataTypes.STRING, allowNull: false }, description: DataTypes.STRING, }, {}); Parcel.associate = (models) => { Parcel.belongsTo(models.User, { foreignKey: 'userId', onDelete: 'CASCADE' }) }; return Parcel; }; 字符只是Unicode字符,您无需执行任何操作,因为当您尝试使用const Parcel = require('../models').Parcel; const joiSchema = require('../joischema/parcelSchema'); const validator = require('../joischema/validator'); module.exports = { create(req, res) { const data = { name: req.body.name, description: req.body.description, destination: req.body.destination, presentLoc: req.body.presentLoc, userId: req.params.userId, }; const valid = validator.isValid(req, res, joiSchema, data); if (valid != null){ res.status(500).send(valid); }else{ return Parcel .create(data) .then(parcel => res.status(201).send(parcel)) .catch(error => res.status(400).send(error)); } }

时,它们将自动转换。

关于最终到达网址,您可以执行以下操作:

\u