标签: java parsing text text-parsing
我试图找出解析科学文档的最佳方法。其中一些文件包含作者创建的独特首字母缩略词(如PBC =外周血细胞,或MDI =多次每日注射)。
通常这些出现在文本中,因此缩写词的第一个出现后面是括号中的首字母缩写:
"研究传感器增强的1年治疗效果 胰岛素泵(SAP)或白蛋白尿多次每日注射(MDI)"
相同的文字使用这些首字母缩略词,所以我试图让我的代码识别这些,然后用缩写的术语代替它们在文档中的后续出现。