识别文本行中的点

时间:2017-05-15 23:32:12

标签: java file-io ascii

我有一个java程序,它将文本文件的行读入缓冲区,当缓冲区已满时,它会输出这些行,以便在所有行都通过缓冲区之后输出部分排序。

输出将以行块为单位,因此我需要一种方法来标记输出中每个块的结尾。由于输出是文本行,因此我不确定将哪个字符用作标记,因为文本可以包含任何字符。我正在考虑使用ascii null或单位分隔符,但我不确定这是否可靠,因为它也可以是文本。

2 个答案:

答案 0 :(得分:0)

您可以使用Map,因此您可以为每个缓冲区组设置一个类似

的键
Hash<int,Buffer> myMap = new HashMap<>();

答案 1 :(得分:0)

如果您不确定如何区分线条,我建议您查看一个通常在NLP中使用的句子标记器工具。这些程序包含区分线条的模式。这样,您可以发送所有日期并获取行,而无需担心要使用的角色。有很多Java库可以完美地完成工作(假设你的文本是英文的)