纯文本表格分析

时间:2015-05-21 12:46:01

标签: php regex

我正在尝试解析通过PDF生成的纯文本表。数据格式是典型的发票表。使用pdftotext和PHP,我将相关的表行迭代到数组元素中。我需要解析这些元素,将它们分解为多维数组以插入数据库。

以下是我将遇到的一些数据示例:

05/18 TMobileRTR 10-100 PE Sold 5/17/2015 11:34 PM 5555556666 $75.00 8.75 % $68.44 $6.56
05/18 T-MobileGoSmt10-100 Sold 5/18/2015 3:20 PM 7775556666 $45.00 6.00 % $42.30 $2.70
05/18 Univision $10-100EX Sold 5/18/2015 6:23 AM 8885556666 $65.00 6.00 % $61.10 $3.90
05/15 NET10 $50 Unl RTR Sold 5/15/2015 6:00 PM 9995556666 $50.00 8.00 % $46.00 $4.00
05/15 RP $49.99 30D RTR Sold 5/15/2015 6:16 PM 1115556666 $49.99 8.00 % $45.99 $4.00 
05/16 Simple $40 TTD Sold 5/16/2015 1:42 PM 2225556666 $40.00 7.75 % $36.90 $3.10 

考虑:

使用explode通过空格分解它。但是,使用这种方法需要对许多变量进行消毒。

我一直在尝试使用正则表达式来实现这一目标,但实现这一目标不在我的知识范围内。

我试图获得的模式是:

<input type="hidden" value=".50" name="discount_amount">
<input type="hidden" value=".50" name="discount_amount2">

我认为正则表达式是最好的方法,但我需要改进我的模式。

以下是关联细分,因此我们可以理解我在这里要传达的内容:

<input type="hidden" value="50" name="discount_rate">
<input type="hidden" value="50" name="discount_rate2">

这就是我需要为关系插入格式化数据的方式。

1 个答案:

答案 0 :(得分:0)

我调整了你的正则表达式并让它匹配,但你可能需要改进它以提取你需要的组!

编辑:更新了建议的确切群组: http://regexr.com/3b217 enter image description here