String.length()

时间:2015-04-28 00:38:10

标签: java string string-length

我上了主要课程:

public class Main {

// args[0] - is path to file with first and last words
// args[1] - is path to file with dictionary 
public static void main(String[] args) {
    try {
        List<String> firstLastWords = FileParser.getWords(args[0]);
            System.out.println(firstLastWords);
        System.out.println(firstLastWords.get(0).length());

    } catch (IOException ex) {
        ex.printStackTrace();
    }
}
}

我有FileParser:

public class FileParser {

    public FileParser() {
    }

    final static Charset ENCODING = StandardCharsets.UTF_8;


    public static List<String> getWords(String filePath) throws IOException {
        List<String> list = new ArrayList<String>();
        Path path = Paths.get(filePath);

        try (BufferedReader reader = Files.newBufferedReader(path, ENCODING)) {
            String line = null;
            while ((line = reader.readLine()) != null) {

                String line1 = line.replaceAll("\\s+","");
                if (!line1.equals("") && !line1.equals(" ") ){
                    list.add(line1);
                }
            }
            reader.close();
        }
        return list;
    }   
}

args[0]是txt文件的路径,只有2个字。因此,如果文件包含:

тор
кит

程序返回:

[тор, кит]
4

如果文件包含:

т
тор
кит

程序返回:

[т, тор, кит]
2


即使文件包含:
    //跳到下一行
    тор
    кит

程序返回:

[, тор, кит]
1

其中digit - 是列表中第一个字符串的长度。

所以问题是为什么它会再计算一个符号?

2 个答案:

答案 0 :(得分:2)

谢谢大家。

这个符号表示@Bill是BOM(http://en.wikipedia.org/wiki/Byte_order_mark)并且位于文本文件的开头。 所以我在这一行找到了这个符号:

System.out.println(((int)firstLastWords.get(0).charAt(0)));
它给了我65279

然后我改变了这一行:
String line1 = line.replaceAll("\\s+",""); 到这个

String line1 = line.replaceAll("\uFEFF","");

答案 1 :(得分:1)

使用正则表达式难以捕获西里尔字符,例如\p{Graph}不起作用,尽管它们是清晰可见的字符。无论如何,那就是OP问题。

实际问题可能是由于其他不可见的字符,可能存在控制字符。请尝试按照正则表达式删除更多内容:replaceAll("(\\s|\\p{Cntrl})+","")。您可以使用正则表达式进一步扩展到其他情况。