我在电子表格中有一堆网址(1000s)。他们指向内部Web应用程序。我需要加载由浏览器呈现的每一个,将其打印为PDF,然后将所有PDF组合成一个大文档。
现在我们让人类做了这项可怕的工作。我希望以某种方式实现自动化。到目前为止,我提出的最好的快速和肮脏的解决方案是创建一个Selenium脚本。是否有更快更脏的方式?
答案 0 :(得分:2)
首先,将包含电子表格中网址的列保存为CSV(urls.csv),这样每行只有一个网址,开头或结尾没有逗号。 然后,假设您使用的是Windows计算机,则可以从命令行下载并使用http://cutycapt.sourceforge.net/批处理文件:
SETLOCAL ENABLEDELAYEDEXPANSION
SET /A COUNT=1
FOR /F "tokens=*" %%i IN (urls.csv) DO (
CutyCapt --url=%%i --min-width=1024 --out-format=jpeg --out=screenshot!COUNT!.png
SET /A COUNT+=1
)
CutyCapt必须与BAT和CSV文件位于同一目录中。它会将网站输出为JPEG屏幕。如果安装了Acrobat Pro,则可以右键单击它们并将它们合并为一个PDF。这应该可以节省一些钱;)
答案 1 :(得分:0)
首先将您的所有URL都写入计算机上的.htm文件中。
在Acrobat Pro(v9)中: