我想从“ w2表单”(pdf)中抓取数据,以便我可以将其保存到数据库中,但无法获取现场数据。
我已经尝试过“ 阅读PDF文本”,该命令读取整个文档会提取所有文本,但是我想查找类似字段的值,
员工的社会保险号=> 1234 56 7890
雇主识别号=> 11-22334455
我尝试过“ 屏幕抓取”,“ 数据抓取”,但无法获取任何特定元素。
请找到随附的pdf文档,以供参考。
任何帮助将不胜感激。
谢谢。
答案 0 :(得分:0)
这是完全可读的.pdf文件,因此实现这一目标应该不是问题。您必须阅读文档文本,然后使用正则表达式查找所需内容。社会安全号码或身份证号码是相当结构化的数据,因此您可以轻松构建正则表达式。 https://regex101.com/可能会对此有所帮助。
您必须:
Regex.Match(readedText, "\d{2}-\d{8}")
用引号引起来的是雇主识别码的正则表达式,编辑。 example.xaml