我正在自动化一个e2e测试,该测试单击一个“打印”链接,然后打开一个包含打印预览的新窗口。
关注浏览器的打印预览窗口后,如何从打印预览中提取文本并将其存储以供以后使用(并且还保留换行符的格式)?
我正在使用JavaScript / node.js
答案 0 :(得分:0)
打印屏幕不是网站,因此usual methods of web scraping失败。
但是您可以 使用带有OCR的可视screen scraping。免费的Kantu网络测试工具带有OCRExtractRelative command。
输入是带有绿色框标记的锚点区域的图像。
输出是粉红色框内的文本。
该工具在绿色框内搜索图像,然后在粉红色框内的区域运行OCR。
OCRExtractRelative | image.jpg | var1
${var1}
包含您需要的文本。
如果需要,您可以通过s cripting api从node.js自动化该工具。
这是输入图像的样子: