在文件名中查找不可读字符的正则表达式

时间:2019-04-04 16:59:07

标签: regex oracle-sqldeveloper oracle12c

我有一个巨大的文件,其中包含410万条记录,需要查找这些-Clock Accuracy – SM111.ppt类文件,这些字符具有不可读的字符。另一个这样的例子是-241395 - Ansprüche.doc

如何使用正则表达式进行匹配。我正在使用oracle 12c数据库

1 个答案:

答案 0 :(得分:1)

这看起来很像文件字符编码的问题。该文件似乎是UTF-8编码的: +-----------------+ +----------------+ | box1 ( ref ) +----+ | box1 ( obj ) | +-----------------+ | +----------------+ | +-----------------+ +------> +----------------+ | box2 ( ref ) +----+ | box2 ( obj ) | +-----------------+ | +----------------+ | +------------------+ +------->+----------------+ | box3 ( ref ) +----------->| box3 ( obj ) | +------------------+ +----------------+ 代表ü,这使ü有意义。 Ansprüche.doc对N破折号(–)进行编码,依此类推。

因此,您需要使用UTF-8作为其编码来打开文件,然后应显示正确的字符(除非一次使用多种编码来破坏文件)。