我使用PDF :: Reader在Ruby中解析了一个pdf文档。 pdf文件的项目符号在我的解析文本中显示为一个奇怪的多维数据集,里面有F0B7(我还附上了一个打印屏幕):
__
|F0|
|B7|
我想知道我是否可以匹配这个"项目符号"使用正则表达式,如果是这样,那么适当的方法是什么?我完全不知道要解决这个问题,因为我甚至不确定这是否是字符串的一部分。感谢。
答案 0 :(得分:0)
这是一个带codepoint F0B7
的unicode符号。
不幸的是,你的Ubuntu安装有一个缺少该字形的默认字体,当字体定义中缺少字形时,常用方法是将它的代码点绘制成方形。
匹配它的正则表达式是:
/\uF0B7/