我必须从PDF读取数据,然后使用iTextSharp将其拉回到Excel。我能够从PDF中读取所有文本,但问题是我必须将这些文本数据以与PDF格式相同的格式(在PDF中以表格结构格式)中获取,数据将作为一系列字符串获取。
请建议我可以将其作为单独的值和表格列,我无法区分哪个是值,哪个是表格列。
以下是PDF中的表格结构:
---------------------------------
| |
|Name|jaydeep|Age|25|Place|India|
--------------------------------
|Sex |Male |Pin|000|Job |Yes |
---------------------------------
因此,在提取完所有文本后,现在我必须在同一个表结构中使用这些数据填充excel:
----------------------------------
|Table1
-------------------------------------
|#|ActionPlan|Description|Failure Mode|
---------------------------------------
|1|Test |Sample test| No |
---------------------------------------
|2|Change R |Sample 1 | No |
---------------------------------------
|3|xxxxx |Sample 2 | Yes |
---------------------------------------
我有一些逻辑,能够以下面的格式在string []数组中获取数据:
BT /F3 9 Tf 1 1 1 rg 407.446 TL 297.648 364.176 Td (CCR Metrics) Tj T* ET
BT /F3 9 Tf 0.161 0.365 0.537 rg 407.446 TL 306.576 349.776 Td (#) Tj T* ET
BT /F3 9 Tf 0.161 0.365 0.537 rg 407.446 TL 375.912 349.776 Td (CCR) Tj T* ET
BT /F3 9 Tf 0.161 0.365 0.537 rg 407.446 TL 454.68 349.776 Td (Value) Tj T* ET
BT /F3 9 Tf 0.161 0.365 0.537 rg 407.446 TL 489.888 349.776 Td (Threshold) Tj T* ET
BT /F3 9 Tf 0.161 0.365 0.537 rg 407.446 TL 542.88 349.776 Td (Status) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 306.72 332.208 Td (1) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 324.648 332.208 Td (Program: ) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 324.648 322.704 Td (xxcxcxcx) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 324.648 313.2 Td (fdwdf44) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 324.648 303.696 Td (44dd) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 456.624 332.208 Td (981.80) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 505.872 332.208 Td (1152.00) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 306.72 290.16 Td (2) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 324.648 290.16 Td (Dataset: ) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 324.648 280.656 Td (P1924_w_V20) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 324.648 271.152 Td (ww55)-) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 324.648 261.648 Td (P978555520_JMC) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 456.624 290.16 Td (186.40) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 510.624 290.16 Td (512.00) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 306.72 248.112 Td (3) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 324.648 248.112 Td (RAM: ) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 324.648 238.608 Td (PddUPF_V20) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 324.648 229.104 Td (yurfcew345) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 324.648 219.6 Td (Pqsq0_JMC) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 461.376 248.112 Td (46.50) Tj T* ET
BT /F4 8.5 Tf 0 0 0 rg 384.81 TL 515.376 248.112 Td (72.00) Tj T* ET
所以在括号中我有那些从PDF的表格结构得到的PDF数据。
现在的工作是我必须将这些数据放在同一个表结构中的Excel中。