Question

我正在使用CSVReader从制表符分隔的文本文件中读取，该文件有一个名为＆＃34; user_comments＆＃34;的字段。在此列中，我们可以找到用户输入的各种自由格式文本。

这是我声明我的解析器的代码......

import au.com.bytecode.opencsv.CSVReader;

CSVReader csv = new CSVReader(new FileReader(opt.f),'\t' as char, '~' as char, '\0' as char);

构造函数的第三个参数是＆＃34; DEFAULT_QUOTE_CHARACTER＆＃34;。默认值为...

 public static final char DEFAULT_QUOTE_CHARACTER = '\"';

我把它设置为＆＃39;〜＆＃39;因为＆＃34; user_comments＆＃34; column的内部带有双引号的值（不应将其视为实际引号，而应仅作为列中的数据读取）。

问题是该列还有＆＃34;〜＆＃34;和＆＃34; |＆＃34;。

那么我可以创建一个没有默认引号字符的CSVReader实例吗？如果没有，你可以建议一个我可以使用的角色，这是非常罕见的，可能在这个＆＃34; user_comments＆＃34;列？

Answer 1

将Unicode的BMP平面（http://unicode.org/roadmaps/bmp/）重新检查到前面。你一定会发现一个“不太可能在你的数据中使用”。然后使用\ u ....在pgm源代码中对其进行编码。

或者更好的是，使用甚至不代表Unicode字符的代码点，例如\ ud7c7。