Question

我有一个包含错误数据的文件（一些随机的SUB控制字符本身......它们不是字形的一部分）我试图使用正则表达式搜索模式删除它们：

Text to Find: \x1a
Replace with:

这会删除我的SUB字符，但它也会弄乱我的其他具有重音符号的字符（具体为é和í）。

是否存在一个正则表达式，如果它本身就会删除SUB控制字符（代码点）？（例如，不是字形的一部分）

示例数据（用SUB控制字符替换你看到“␚”的所有地方：

A,André,Fernandez
A,Daniel,O␚Shea
A,Ibhlín,Flanders
A,Donny,O␚'Donnell
A,Spencer,O'Maley

SAMPLE DATA如果我使用当前的正则表达式输出：

A,Andr�,Fernandez
A,Daniel,OShea
A,Ibhl�n,Flanders
A,Donny,O'Donnell
A,Spencer,O'Maley

期望的数据输出

A,André,Fernandez
A,Daniel,OShea
A,Ibhlín,Flanders
A,Donny,O'Donnell
A,Spencer,O'Maley

Answer 1

 Position        Decimal        Name                     Appearance   
 0x241A          9242           SYMBOL FOR SUBSTITUTE    ␚

也许这可以帮到你。

随之而来。

Answer 2

Jim Garrison的评论是答案：正则表达式正在删除sub，但编码正在改变过程。

此外，我正在使用产品电话Boomi而我正在使用内置的＆＃34;搜索/替换＆＃34; Boomi的特色。它是在运行Java，因此我没有回答关于Java代码的问题，因为我不知道正在运行的确切代码。

我们解决这个问题的方法是，我们将考虑编写一些自定义Java代码来进行字符替换，而不是使用Boomi的内置搜索/替换功能。

感谢您的帮助并指出我正确的方向！

更新：我刚刚在Boomi中找到了一个内置功能：字符解码。事实证明，我可以在不编写自定义Java代码的情况下管理编码。