Ruby PDF :: Reader与正则表达式匹配项目符号

时间:2016-03-29 20:23:27

标签: ruby regex pdf pdf-reader

我使用PDF :: Reader在Ruby中解析了一个pdf文档。 pdf文件的项目符号在我的解析文本中显示为一个奇怪的多维数据集,里面有F0B7(我还附上了一个打印屏幕):

  __
 |F0|
 |B7|

我想知道我是否可以匹配这个"项目符号"使用正则表达式,如果是这样,那么适当的方法是什么?我完全不知道要解决这个问题,因为我甚至不确定这是否是字符串的一部分。感谢。enter image description here

1 个答案:

答案 0 :(得分:0)

这是一个带codepoint F0B7的unicode符号。

不幸的是,你的Ubuntu安装有一个缺少该字形的默认字体,当字体定义中缺少字形时,常用方法是将它的代码点绘制成方形。

匹配它的正则表达式是:

/\uF0B7/

enter image description here