未保存在书本PDF中的HTML格式超链接

时间:2018-10-23 21:49:17

标签: r r-markdown pandoc bookdown

我的书本.Rmd文件中有几个html格式的URL,这些URL在生成的PDF中消失了。似乎该链接已被忽略,PDF仅显示应连接该链接的文本。

例如,<a href="https://www.cygwin.com" target="_blank">Cygwin</a>仅显示为Cygwin(没有超链接)。

但是当网站与显示的文本匹配时,它可以正常工作(例如:<a href="https://www.cygwin.com" target="_blank">https://www.cygwin.com</a>),大概是因为文本本身就是链接。

有没有办法让Bookdown在PDF输出中保留这些html超链接?

我正在运行以下命令以在R Studio中生成PDF:

    render_book("index.Rmd", "bookdown::pdf_book")

索引的顶部。Rmd看起来像这样:

    title: "My Title"
    site: bookdown::bookdown_site
    documentclass: book
    link-citations: yes
    output:
      bookdown::pdf_book:
        pandoc_args: [--wrap=none]
    urlcolor: blue

1 个答案:

答案 0 :(得分:2)

Pandoc,以及扩展名R Markdown,仅保留链接的原始HTML。原始HTML块输出为支持HTML的格式(如epub),但不输出为LaTeX(用于生成PDF)。 Pandoc只会解析链接的内容,这就是如果您的链接文本是URL则它似乎起作用的原因。

最简单的解决方案当然是对链接使用Markdown语法,它与HTML:[Cygwin](https://www.cygwin.com){target="_blank"}一样具有表现力。但是,如果这不是一个选择,那么事情会变得有些棘手。

这里是一种仍然解析那些链接的方法。它使用Lua filter将原始HTML转换为正确的链接。将以下脚本parse-html-links.lua安全地保存到Rmd文件所在的目录中,然后将'--lua-filter=parse-html-links.lua'添加到pandoc_args的列表中。

local elements_in_link = {}
local link_start
local link_end

Inline = function (el)
  if el.t == 'RawInline' and el.format:match'html.*' then
    if el.text:match'<a ' then
      link_start = el.text
      return {}
    end
    if el.text:match'</a' then
      link_end = el.text
      local link = pandoc.read(link_start .. link_end, 'html').blocks[1].content[1]
      link.content = elements_in_link
      -- reset
      elements_in_link, link_start, link_end = {}, nil, nil
      return link
    end
  end
  -- collect link content
  if link_start then
    table.insert(elements_in_link, el)
    return {}
  end
  -- keep original element
  return nil
end