我是UI Path的新手,但是对VB有一般的经验。这是我的情况:
1。)我正在从PDF文件中筛选数据。成功的那个。
2。)这是我的示例屏幕抓取的数据:
Description Amount Tax
Flights from Point a to Point b 10 1
Flights from Point b to Point c 10 1
Return Flights from Point c to 20 2
point a 2x
Flights from Point d to Point 40 4
e
flights from Point a to point d 30 3
Return Flights from Point d to 30 3
Point a
SERVICE FEE 1 0.1
3。)我设法删除了数字,只留下了说明文字。
Flights from Point a to Point b
Flights from Point b to Point c
Return Flights from Point c to
point a 2x
Flights from Point d to Point
e
flights from Point a to point d
Return Flights from Point d to
Point a
SERVICE FEE
5。)我拆分了此文本。我创建了一个文本文件,其中包含可能的分隔符,供我拆分说明。
Delimiters.txt
2x
Flights from
Return Flights
flights from
SERVICE
这是示例输出。
*Flights from Point a to Point b
*Flights from Point b To Point c
Return
*Flights from Point c to
point a
*2x
*Flights from Point d to Point
e
*flights from Point a to point d
*Return Flights From Point d To
Point a
*SERVICE FEE
示例输出:
我发现我的问题是:
1。)我的定界符在拆分描述时可以正常工作,但是具有相同单词的定界符会多次拆分描述。最好的例子是2x Flights from Point d to Point e
,我可以使用定界符2x
进行适当的拆分,但是由于它内部还有另一个定界符(Flights from
),因此它将字符串再次拆分为Flights from Point d to Point e
,将2x
留在外面。
2。)屏幕抓取时,PDF文件中的数据每页的格式不同,
例如在第一页上
Flights from Point a to Point b
10 1
然后在第二页上显示
Flights from Point a
10 1
to Point b
如何在逻辑上拆分此格式不同的字符串?
感谢高级和愉快的编码!