您能将带有缩进的pdf数据拖入表格吗

时间:2019-06-11 20:49:21

标签: python nlp

我需要整理https://www.cms.gov/Medicare/Coding/ICD10/2018-ICD-10-CM-and-GEMs.html中提供的ICD-10代码“ icd10cm_tabular_2019”(2018代码表和索引[ZIP,20MB])

我的目标是将这些放入具有以下4列的表中: 代码,类别,子类别,子类,注释。例如代码: A00.1

代码-类别-子类别-子类-注释

A00.1-肠道传染病-霍乱-霍乱弧菌-霍乱弧菌-古典霍乱

cms的pdf以已定义但无法使用的格式显示此数据。所有缩进。任何想法如何解决这个问题? 谢谢大家

将文本转换为excel格式,只需将每行放入一列

1 个答案:

答案 0 :(得分:0)

您不一定需要先将PDF转换为Text,然后再转换为Excel。您可以使用工具将PDF直接转换为Excel。例如,如果您要使用Python:

import pdftables_api

c = pdftables_api.Client('my-api-key')
c.xlsx('input.pdf', 'output.xlsx')

您需要生成一个API密钥。更多信息:https://pdftables.com/pdf-to-excel-api