我正在尝试将SEC网站上的.htm
文件转换为.pdf
,并使内部链接正常工作。我已经成功地使用.pdf
转换为wkhtmltopdf
,但是所有内部链接都将我带回到了第一页。
wkhtmltopdf https://www.sec.gov/Archives/edgar/data/1594617/000119312514117433/d640354ds1a.htm test.pdf
答案 0 :(得分:1)
似乎有一个issue和wkhtmltopdf
处理没有内容的定位标记。有一个PR于2017年开放以解决它,但它仍然保持开放状态。
事实证明,您的文档确实有空的锚标记,所以这可能是根本原因:
<A NAME="toc640354_15"></A>
我建议使用chrome生成带有--headless
和--print-to-pdf
标志的pdf。在chrome安装目录中,执行以下操作:
chrome.exe --headless --disable-gpu --print-to-pdf="C:\path\to\file.pdf" https://www.sec.gov/Archives/edgar/data/1594617/000119312514117433/d640354ds1a.htm
请确保您指定了输出文件的绝对路径,否则无论出于何种原因,该路径似乎都不起作用。该命令将立即返回,没有任何输出或成功指示。给它几秒钟来检索,渲染和写入文件。
我对您的文档进行了测试,并且链接可以正常工作。