我需要整理https://www.cms.gov/Medicare/Coding/ICD10/2018-ICD-10-CM-and-GEMs.html中提供的ICD-10代码“ icd10cm_tabular_2019”(2018代码表和索引[ZIP,20MB])
我的目标是将这些放入具有以下4列的表中: 代码,类别,子类别,子类,注释。例如代码: A00.1
代码-类别-子类别-子类-注释
A00.1-肠道传染病-霍乱-霍乱弧菌-霍乱弧菌-古典霍乱
cms的pdf以已定义但无法使用的格式显示此数据。所有缩进。任何想法如何解决这个问题? 谢谢大家
将文本转换为excel格式,只需将每行放入一列
答案 0 :(得分:0)
您不一定需要先将PDF转换为Text,然后再转换为Excel。您可以使用工具将PDF直接转换为Excel。例如,如果您要使用Python:
import pdftables_api
c = pdftables_api.Client('my-api-key')
c.xlsx('input.pdf', 'output.xlsx')
您需要生成一个API密钥。更多信息:https://pdftables.com/pdf-to-excel-api