我需要为可读取和处理多个.sgm文件的作业创建.sgm解析器的帮助。
一个文件夹中有22个文件,每个文件名为reut2-0 ??。sgm,其中?表示文件编号。
确切说明如下:
在此项目中,您将创建一个.sgm解析器。您的程序将读取每个文件,找到 每篇文章,并能够提取标签之间的信息。
以下是具体 我希望您在解析器中执行的操作:
此外,请保留以下内容:
a。您能够成功阅读的文章数(无论是 地点/主题,正文或两者兼有)
b。能够从topic标签中提取单词的文章数。
c。能够从places标记中提取单词的文章数。
d。您可以从体内引出词语的文章数 标签。 请注意,这些数字可能不相同,因为标签可能不完整。如果 标签不完整,不算单词。例如,如果有一个<TOPICS>
但没有
</TOPICS>
,然后不要计算<TOPICS>
之后的字数。