解析教科书索引

时间:2018-10-20 18:22:48

标签: algorithm sorting

我想解析教科书的索引,但是格式始终不一致。有关如何处理这些条目的任何建议。

罗汉词
单词,##-###
罗的单词,###
父词##
子词,##
没有父母的话毫无意义,###
没有父母的其他##,##
单词没有意义 话语
##, ###-###, ###
育儿字,###-###
子词,##
与育儿相关的专有名词,否则无意义,###

目标是能够通过首先出现的页码对它们进行排序,然后使用孩子的页码将孩子的文本附加到父母的文本之后;取代大孩子。这样Parenting Word child words, ##存在。

1 个答案:

答案 0 :(得分:1)

我会回来编辑订单并上传图表。

  • 如果条目具有页码(仅对有孩子的父母重要)
  • 如果条目在输入前后都是字母顺序的(将捕获一些专有名词)
  • 如果条目大写(捕获专有名词除外)
  • 在找到新的可能的父母之后(孩子的父母填写信息)(资本,而不是最后一个孩子的字母顺序,可能会在页码上查找较大的空白)
  • 页码只能在其后附加“ f”以表示图形。 <-以浮点表示法滥用它。
  • 建立父母的链表(以帮助捕捉漏掉的专有名词)
    • 父母信息应该是动态的,以便如果专有名词在应为孩子的情况下确实被归类为父母,则可以迅速将其转换为正确的父母。

为帮助识别它是否是专有名词,请比较页码,如果在前一位父母或父母的子女中提到相同的页码或在合理范围内,请将其标记为潜在的专有名词,以供人类复习。

  • 设置一个逗号分隔符,并在其周围加上一些魔术,以在其后寻找“ [0-9]”,并在其之前寻找一个单词。而且我们知道[0-9] f?\ n [A-Z]结束了该条目。

这不是很快,但是对于<10,000行文本,应该不太困难。蛮力!