我们总是以相同的格式从客户处收到大量自行开票发票,我需要将其操作为特定的Excel格式以导入我的会计系统。
最好的编码语言是什么?
谢谢,
的Nik
答案 0 :(得分:0)
听起来很棘手的部分是从PDF中获取信息。为此,您可以使用OCR。完成后,您可以使用VBA(Office Automation)将其加载到Excel中。
大多数OCR API不仅返回文本,还返回单词的坐标(边界框)。以下是免费OCR.space OCR API:
中的示例API输出是这样的JSON响应:
{
"ParsedResults": [
{
"TextOverlay": {
"Lines": [
{
"Words": [
{
"WordText": "TEXT",
"Left": 279,
"Top": 89,
"Height": 40,
"Width": 107
}
],
"MaxHeight": 40,
"MinTop": 89
},
{
"Words": [
{
"WordText": "WALKING",
"Left": 233,
"Top": 144,
具有相同功能的其他API包括Google Cloud Vision,Microsoft Cognitive Services和Abbyy。
下一步,您可以解析JSON文件并查找某个x / y范围内的信息,并将其分配给Excel中的某些字段。