Question

我有一个Tab-delimited String（表示一个表），它传递给我的方法。当我将它打印到命令行时，它看起来像一个包含行的表：

http://i.stack.imgur.com/2fAyq.gif

命令窗口已正确缓冲。我的想法是在每行之前或之后肯定有一个新的行字符。

我的问题是我想将传入的字符串拆分为表示表格行的单个字符串。到目前为止，我有：

private static final String newLine = System.getProperty("line.separator").toString();
private static final String tab = "\t";
private static String[] rows;
...

rows = tabDelimitedTable.split(newLine);    //problem is here

System.out.println();
System.out.println("################### start debug ####################");

System.out.println((tabDelimitedTable.contains(newLine)) ? "True" : "False");

System.out.println("#################### end debug###################");
System.out.println();

输出：

################### start debug ####################
False
#################### end debug###################

显然字符串中有一些东西告诉操作系统开始换行。但它显然不包含换行符。

在Windows XP SP3上运行最新的JDK。

任何想法？

Answer 1

问题

您必须 NOT 假设任意输入文本文件使用“正确的”特定于平台的newline分隔符。这似乎是你问题的根源;它与正则表达式没什么关系。

为了说明，在Windows平台上，System.getProperty("line.separator")为"\r\n"（CR + LF）。但是，当您在此平台上运行Java代码时，您可能必须处理其行分隔符只是"\n"（LF）的输入文件。也许这个文件最初是在Unix平台上创建的，然后以二进制（而不是文本）模式传输到Windows。可能存在许多情况，您可能遇到这种情况，您必须将文本文件解析为不使用当前平台的换行符分隔符的输入。

（巧合的是，当Windows文本文件以二进制模式传输到Unix时，许多编辑器会显示^M，这会使一些不了解发生了什么的人感到困惑。

当您生成文本文件作为输出时，您可能更喜欢特定于平台的换行符分隔符，但当您使用文本文件作为输入时，它是假设它正确使用特定于平台的换行符分隔符可能不安全。

解决方案

解决问题的一种方法是使用例如java.util.Scanner。它有一个nextLine()方法，可以返回下一行（如果存在），正确处理平台的换行符分隔符和输入文本文件之间的任何不一致。

您还可以组合2 Scanner，一个用于逐行扫描文件，另一个用于扫描每行的标记。这是一个简单的用法示例，将每一行分为List<String>。因此整个文件变为List<List<String>>。

这可能是一种比将整个文件读入一个巨大的String然后split成行（然后split成为部分）更好的方法。

    String text
        = "row1\tblah\tblah\tblah\n"
        + "row2\t1\t2\t3\t4\r\n"
        + "row3\tA\tB\tC\r"
        + "row4";

    System.out.println(text);
    //  row1    blah    blah    blah
    //  row2    1   2   3   4
    //  row3    A   B   C
    //  row4

    List<List<String>> input = new ArrayList<List<String>>();

    Scanner sc = new Scanner(text);
    while (sc.hasNextLine()) {
        Scanner lineSc = new Scanner(sc.nextLine()).useDelimiter("\t");
        List<String> line = new ArrayList<String>();
        while (lineSc.hasNext()) {
            line.add(lineSc.next());
        }
        input.add(line);
    }
    System.out.println(input);
    // [[row1, blah, blah, blah], [row2, 1, 2, 3, 4], [row3, A, B, C], [row4]]

另见

Effective Java 2nd Edition，Item 25：Prefer lists to arrays

相关问题

Validating input using java.util.Scanner - 有许多使用示例
Scanner vs. StringTokenizer vs. String.Split

Answer 2

尝试

rows = tabDelimitedTable.split("[" + newLine + "]");

这应解决正则表达式问题。

也不是那么重要但是返回类型

System.getProperty("line.separator")

是字符串，因此无需调用toString（）。

Answer 3

在Windows上，line.separator是CR / LF组合（参考here）。

Java String.split()方法需要regular expression。所以我认为这里有一些混乱。

Answer 4

尝试BufferedReader.readLine()而非所有这些并发症。它将识别所有可能的行终止符。

Answer 5

我认为你的问题是String.split()将其论证视为正则表达式，而正则表达式专门处理换行符。您可能需要显式创建一个正则表达式对象以传递给split()（还有另一个重载），并通过在MULTILINE的标志参数中传递Pattern.compile()来配置该正则表达式以允许换行。 Docs

Answer 6

其他响应者是正确的，split（）采用正则表达式作为参数，因此您必须先修复它。另一个问题是您假设换行符与系统默认值相同。根据数据的来源以及程序运行的位置，这种假设可能不正确。

Answer 7

试试这个：

rows = tabDelimitedTable.split("[\\r\\n]+");

无论输入中的行分隔符是什么，这都应该有效，并且将忽略空白行。

我如何使用System.getProperty（“line.separator”）。toString（）？

7 个答案:

问题

解决方案

另见

相关问题