我想解析教科书的索引,但是格式始终不一致。有关如何处理这些条目的任何建议。
罗汉词
单词,##-###
罗的单词,###
父词##
子词,##
没有父母的话毫无意义,###
没有父母的其他##,##
单词没有意义
话语
##, ###-###, ###
育儿字,###-###
子词,##
与育儿相关的专有名词,否则无意义,###
目标是能够通过首先出现的页码对它们进行排序,然后使用孩子的页码将孩子的文本附加到父母的文本之后;取代大孩子。这样Parenting Word child words, ##
存在。
答案 0 :(得分:1)
我会回来编辑订单并上传图表。
为帮助识别它是否是专有名词,请比较页码,如果在前一位父母或父母的子女中提到相同的页码或在合理范围内,请将其标记为潜在的专有名词,以供人类复习。
这不是很快,但是对于<10,000行文本,应该不太困难。蛮力!