我正在使用CSVReader从制表符分隔的文本文件中读取,该文件有一个名为" user_comments"的字段。在此列中,我们可以找到用户输入的各种自由格式文本。
这是我声明我的解析器的代码......
import au.com.bytecode.opencsv.CSVReader;
CSVReader csv = new CSVReader(new FileReader(opt.f),'\t' as char, '~' as char, '\0' as char);
构造函数的第三个参数是" DEFAULT_QUOTE_CHARACTER"。默认值为...
public static final char DEFAULT_QUOTE_CHARACTER = '\"';
我把它设置为'〜'因为" user_comments" column的内部带有双引号的值(不应将其视为实际引号,而应仅作为列中的数据读取)。
问题是该列还有"〜"和" |"。
那么我可以创建一个没有默认引号字符的CSVReader实例吗?如果没有,你可以建议一个我可以使用的角色,这是非常罕见的,可能在这个" user_comments"列?
答案 0 :(得分:0)
将Unicode的BMP平面(http://unicode.org/roadmaps/bmp/)重新检查到前面。你一定会发现一个“不太可能在你的数据中使用”。然后使用\ u ....在pgm源代码中对其进行编码。
或者更好的是,使用甚至不代表Unicode字符的代码点,例如\ ud7c7。