使用UIPath

时间:2019-06-06 06:24:52

标签: pdf screen-scraping uipath-studio

我想从“ w2表单”(pdf)中抓取数据,以便我可以将其保存到数据库中,但无法获取现场数据。

  1. 我已经尝试过“ 阅读PDF文本”,该命令读取整个文档会提取所有文本,但是我想查找类似字段的值,

    员工的社会保险号=> 1234 56 7890

    雇主识别号=> 11-22334455

  2. 我尝试过“ 屏幕抓取”,“ 数据抓取”,但无法获取任何特定元素。

  3. 我已经尝试通过“查找图片”和“获取文字”进行“ Anchorbase ”活动,但是无法选择特定元素。

请找到随附的pdf文档,以供参考。

W2 Form pdf

任何帮助将不胜感激。

谢谢。

1 个答案:

答案 0 :(得分:0)

这是完全可读的.pdf文件,因此实现这一目标应该不是问题。您必须阅读文档文本,然后使用正则表达式查找所需内容。社会安全号码或身份证号码是相当结构化的数据,因此您可以轻松构建正则表达式。 https://regex101.com/可能会对此有所帮助。

您必须:

  1. 使用“阅读PD​​F文本”活动获取.pdf文本,
  2. 分配活动,创建System.Text.RegularExpressions.Match类型的新变量
  3. 导入名称空间:System.Text.RegularExpressions
  4. 在分配使用的右侧:Regex.Match(readedText, "\d{2}-\d{8}") 用引号引起来的是雇主识别码的正则表达式,
  5. 如果UiPath显示未声明“ Regex”,请保存工作流程,将其关闭,再次打开,再次导入名称空间,删除分配活动并再次创建。
  6. 仅此而已,您可以找到第二个号码。

编辑。 example.xaml