是否有一个跨平台的Java方法来删除文件名特殊字符?

时间:2009-07-20 18:25:14

标签: java cross-platform filesystems filenames

我正在制作一个跨平台的应用程序,它根据在线检索的数据重命名文件。我想清理我从当前平台的Web API中获取的字符串。

我知道不同的平台有不同的文件名要求,所以我想知道是否有跨平台的方法来做到这一点?

编辑:在Windows平台上,您不能出现问号'?'在文件名中,而在Linux中,您可以。文件名可能包含这样的字符,我希望支持这些字符的平台保留它们,否则将它们剥离。

另外,我更喜欢不需要第三方库的标准Java解决方案。

8 个答案:

答案 0 :(得分:25)

正如其他地方所建议的那样,这通常不是你想要做的。通常最好使用安全方法(如File.createTempFile())创建临时文件。

您不应该使用白名单执行此操作,只保留“好”字符。如果文件仅由中文字符组成,那么您将从中删除所有内容。我们不能因此而使用白名单,我们必须使用黑名单。

Linux几乎可以让任何可能真正痛苦的事情发生。我只是将Linux限制在你限制Windows的同一个列表中,这样你将来可以避免头痛。

在Windows上使用此C#代码段我生成了一个在Windows上无效的字符列表。这个列表中有很多字符比您想象的要多(41)所以我不建议您尝试创建自己的列表。

        foreach (char c in new string(Path.GetInvalidFileNameChars()))
        {
            Console.Write((int)c);
            Console.Write(",");
        }

这是一个简单的Java类,它“清理”文件名。

public class FileNameCleaner {
final static int[] illegalChars = {34, 60, 62, 124, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 58, 42, 63, 92, 47};
static {
    Arrays.sort(illegalChars);
}
public static String cleanFileName(String badFileName) {
    StringBuilder cleanName = new StringBuilder();
    for (int i = 0; i < badFileName.length(); i++) {
        int c = (int)badFileName.charAt(i);
        if (Arrays.binarySearch(illegalChars, c) < 0) {
            cleanName.append((char)c);
        }
    }
    return cleanName.toString();
}
}

编辑: 正如Stephen建议的那样,您可能还应该验证这些文件访问只发生在您允许的目录中。

以下答案包含用于在Java中建立自定义安全上下文,然后在该“沙箱”中执行代码的示例代码。

How do you create a secure JEXL (scripting) sandbox?

答案 1 :(得分:19)

或者只是这样做:

String filename = "A20/B22b#öA\\BC#Ä$%ld_ma.la.xps";
String sane = filename.replaceAll("[^a-zA-Z0-9\\._]+", "_");

结果:A20_B22b_A_BC_ld_ma.la.xps

说明:

[a-zA-Z0-9\\._]匹配来自a-z大写,数字,点和下划线的字母

[^a-zA-Z0-9\\._]是相反的。即所有与第一个表达式不匹配的字符

[^a-zA-Z0-9\\._]+是一系列与第一个表达式

不匹配的字符

所以每个字符序列都不包含来自a-z,0-9或者字符的字符。 _将被替换。

答案 2 :(得分:12)

这是基于Sarel Botha接受的答案,只要您没有遇到Basic Multilingual Plane之外的任何字符,该答案就可以正常工作。如果您需要完整的Unicode支持(以及谁不支持?),请使用此代码,而不是Unicode安全:

public class FileNameCleaner {
  final static int[] illegalChars = {34, 60, 62, 124, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 58, 42, 63, 92, 47};

  static {
    Arrays.sort(illegalChars);
  }

  public static String cleanFileName(String badFileName) {
    StringBuilder cleanName = new StringBuilder();
    int len = badFileName.codePointCount(0, badFileName.length());
    for (int i=0; i<len; i++) {
      int c = badFileName.codePointAt(i);
      if (Arrays.binarySearch(illegalChars, c) < 0) {
        cleanName.appendCodePoint(c);
      }
    }
    return cleanName.toString();
  }
}

此处的主要变化:

  • 使用codePointCount i.c.w. length而非length
  • 使用codePointAt代替charAt
  • 使用appendCodePoint代替append
  • 无需将char转换为int s。事实上,你永远不应该处理char因为它们在BMP之外的任何事情都会被打破。

答案 3 :(得分:6)

有一个非常好的内置Java解决方案 - Character.isXxx()

尝试Character.isJavaIdentifierPart(c)

String name = "name.é+!@#$%^&*(){}][/=?+-_\\|;:`~!'\",<>";
StringBuilder filename = new StringBuilder();

for (char c : name.toCharArray()) {
  if (c=='.' || Character.isJavaIdentifierPart(c)) {
    filename.append(c);
  }
}

结果是“name.é$ _”。

答案 4 :(得分:6)

以下是我使用的代码:

public static String sanitizeName( String name ) {
    if( null == name ) {
        return "";
    }

    if( SystemUtils.IS_OS_LINUX ) {
        return name.replaceAll( "/+", "" ).trim();
    }

    return name.replaceAll( "[\u0001-\u001f<>:\"/\\\\|?*\u007f]+", "" ).trim();
}

SystemUtils来自Apache commons-lang3

答案 5 :(得分:5)

您的问题并不清楚,但由于您计划接受来自网络表单(?)的路径名,您可能应该阻止尝试重命名某些内容;例如“C:\ Program Files”。这意味着您需要规范化路径名以消除“。”在进行访问检查之前,请使用“..”。

鉴于此,我不会尝试删除非法字符。相反,我使用“new File(str).getCanonicalFile()”来生成规范路径,接下来检查它们是否满足您的沙盒限制,最后使用“File.exists()”,“File.isFile()”等,以检查源和目标是否是犹太教,并且不是相同的文件系统对象。我会通过尝试执行操作并捕获异常来处理非法字符。

答案 6 :(得分:0)

如果你想使用的不仅仅是[A-Za-z0-9],那么请检查MS Naming Conventions,不要忘记过滤掉&#34; ...整数表示在范围内的字符从1到31,......&#34;,就像Aaron Digulla的例子一样。代码,例如来自David Carboni对于这些人来说是不够的。

包含保留字符列表的摘录:

  

使用当前代码页中的任何字符作为名称,包括扩展字符集(128-255)中的Unicode字符和字符,但以下情况除外:

     

以下保留字符:

     
      
  • <(小于)
  •   
  • >(大于)
  •   
  • :(冒号)
  •   
  • "(双引号)
  •   
  • /(正斜杠)
  •   
  • \(反斜杠)
  •   
  • |(垂直条或竖线)
  •   
  • ?(问号)
  •   
  • *(星号)
  •   
  • 整数值为零,有时也称为ASCII NUL字符。
  •   
  • 整数表示形式在1到31范围内的字符,但允许使用这些字符的备用数据流除外。有关文件流的更多信息,请参阅文件流。
  •   
  • 目标文件系统不允许的任何其他字符。
  •   

答案 7 :(得分:0)

Paths.get(...)抛出一个关于非法字符位置的详细异常。

public static String removeInvalidChars(final String fileName)
{
  try
  {
    Paths.get(fileName);
    return fileName;
  }
  catch (final InvalidPathException e)
  {
    if (e.getInput() != null && e.getInput().length() > 0 && e.getIndex() >= 0)
    {
      final StringBuilder stringBuilder = new StringBuilder(e.getInput());
      stringBuilder.deleteCharAt(e.getIndex());
      return removeInvalidChars(stringBuilder.toString());
    }
    throw e;
  }
}