Java StringTokenizer如何查找段落的结尾?

时间:2012-09-11 08:33:23

标签: java stringtokenizer

我正在学习Java String Tokenizer。我正在寻找找到段落结尾的方法。

例如,我有一个文本文件..

HI
I am bob the the bob

And I am am  bob bob bob lu the the 

hello

我正在读取txt文件,我正在使用String Tokenizer将每个单词放入哈希表

但是,我想在段落结束时停止。 例如,

首先,我想存储

"HI
I am bob the the bob" 

其次,当我们看到双重换行符时,我们会停止。并在哈希表中插入“1”。 然后我想插入

"And I am am  bob bob bob lu the the "

第三,当我们再次看到双重换行符时,我们再次停止。 我们在哈希表中插入“2”

然后

我们在哈希表中插入“hello”。

但是,我不确定在每个段落的末尾停止的方法吗?

有谁知道怎么做?

2 个答案:

答案 0 :(得分:0)

我想你使用空格(“”)作为分隔符。我会尝试使用带有“\ n”作为分隔符的第二个Tokenizer,用它解析文件,然后对每个令牌使用分隔符。

事实上,使用第一个标记化程序后标记中的每个空行都是段落的结尾

答案 1 :(得分:0)

检测双重新行不是sring tokenizer的责任。您正在使用标记生成器将一行拆分为单独的单词。但我猜你有一个读取线条的外环。当您检测到空行时段落结束。

while((line = reader.readLine()) != null) {
   if ("".equals(line.trim())) {
      // empty line  - new paragraph. 
   }
}