sed - 删除非标准字符

时间:2017-03-09 19:00:35

标签: html css bash sed utf-8

大家好,我一直在努力研究并想出一个干净的方法来做这件事。

我有一个.sql文件,其中包含复制和粘贴非标准化文件等的人物中的错误字符,我的任务是删除因此而出现的字符。

一个例子是 -

“ some text here †more text

数据库很广泛,我不确定有多种非标准的utf-8字符....所以有一个sed参数可以删除所有非标准字符(因为我不知道究竟是什么角色?

这些块是数据库中的标准HTML和CSS块,所以无论如何都允许有限数量的允许字符,所以我应该使用大规模的正则表达式IE进行该路径

[^a-zA-Z0-9`~!@#$%^&*()_\-+={[}\] \\|:;"'<,>.?\/]

由于这是存储HTMLCSS我不认为需要保留标签和空格(或者他们会将其保存在文件中)。

regex声明中的上述sed看起来很不稳定,有点黑客攻击。

有没有更简洁的方法来搜索这些字符并删除它们?

我已经尝试过很多SO答案的建议,但大多数答案只包含一个或几个字符..我想要删除任何不是“标准”的东西utf-8

1 个答案:

答案 0 :(得分:0)

我认为这会解决问题:

this._router.route