处理.sgm文件

时间:2019-11-12 13:45:11

标签: java file parsing sgml

我需要为可读取和处理多个.sgm文件的作业创建.sgm解析器的帮助。

一个文件夹中有22个文件,每个文件名为reut2-0 ??。sgm,其中?表示文件编号。

确切说明如下:

在此项目中,您将创建一个.sgm解析器。您的程序将读取每个文件,找到 每篇文章,并能够提取标签之间的信息。

以下是具体 我希望您在解析器中执行的操作:

  1. 能够提取主题和地方标签中的单词,并保持计数 话。您可以合并在这些标签中找到的单词的数量。
  2. 能够拉出body标签内的单词并保持单词数。这些 计数应与第1部分中的计数分开。
  3. 此外,请保留以下内容:

    a。您能够成功阅读的文章数(无论是 地点/主题,正文或两者兼有)

    b。能够从topic标签中提取单词的文章数。

    c。能够从places标记中提取单词的文章数。

    d。您可以从体内引出词语的文章数 标签。 请注意,这些数字可能不相同,因为标签可能不完整。如果 标签不完整,不算单词。例如,如果有一个<TOPICS>但没有 </TOPICS>,然后不要计算<TOPICS>之后的字数。

  4. 将结果写入文本文件,一个用于主题和地点,另一个用于 身体。将两个文件的第3部分中的计数写在两个文件的顶部。适当命名这些文件。

0 个答案:

没有答案