如何使用多字定界符分割动态段落?

时间:2018-12-07 03:53:11

标签: arrays string vb.net uipath

我是UI Path的新手,但是对VB有一般的经验。这是我的情况:

1。)我正在从PDF文件中筛选数据。成功的那个。

2。)这是我的示例屏幕抓取的数据:

Description                        Amount Tax
Flights from Point a to Point b     10     1
Flights from Point b to Point c     10     1
Return Flights from Point c to      20     2 
point a 2x
Flights from Point d to Point       40     4 
e 
flights from Point a to point d     30     3
Return Flights from Point d to      30     3
Point a 
SERVICE FEE                         1      0.1

3。)我设法删除了数字,只留下了说明文字。

Flights from Point a to Point b
Flights from Point b to Point c
Return Flights from Point c to
point a 2x
Flights from Point d to Point
e 
flights from Point a to point d
Return Flights from Point d to
Point a 
SERVICE FEE

5。)我拆分了此文本。我创建了一个文本文件,其中包含可能的分隔符,供我拆分说明。

Delimiters.txt

2x
Flights from
Return Flights
flights from
SERVICE

这是示例输出。

*Flights from Point a to Point b

*Flights from Point b To Point c
Return 
*Flights from Point c to
point a 
*2x

*Flights from Point d to Point
e 

*flights from Point a to point d

*Return Flights From Point d To
Point a 

*SERVICE FEE

示例输出:

enter image description here

我发现我的问题是:

1。)我的定界符在拆分描述时可以正常工作,但是具有相同单词的定界符会多次拆分描述。最好的例子是2x Flights from Point d to Point e,我可以使用定界符2x进行适当的拆分,但是由于它内部还有另一个定界符(Flights from),因此它将字符串再次拆分为Flights from Point d to Point e ,将2x留在外面。

2。)屏幕抓取时,PDF文件中的数据每页的格式不同,

例如在第一页上

Flights from Point a to Point b 10 1

然后在第二页上显示

Flights from Point a 10 1 to Point b

如何在逻辑上拆分此格式不同的字符串?

感谢高级和愉快的编码!

0 个答案:

没有答案