我正在尝试刮除此webpage,它使用自定义字体在梵文中显示文本。我有ttf文件,用于网页中使用的字体。
无论如何,我是否可以使用ttf文件抓取该网站,然后使用Python(如果没有,则是任何语言)将内容编码为unicode?
他们使用的字体是http://www.acharya.gen.in:8080/fonts/iitmfonts.php中的iitmsans.ttf
答案 0 :(得分:0)
不,您可能需要做一些手动工作才能为Python创建编码。 TTF文件不包含有关Unicode映射(it could的信息,但并不常见,而这一点则不行。
看着http://bluejamesbond.github.io/CharacterMap/中的字体,我看到了许多梵文字形,但我不知道它们的名称,或者在绘制它们时常见或允许使用哪些变体,因此我可能无法轻松地找到Unicode中的相同字形,您。但是我可以识别字符代码65(0x41)上的“ om”字形U+0950,因此我可以在您的编码中添加第一项:
Decoder
对字体中的所有其他字形执行此操作,您就可以在Python中使用映射。常规指南位于标准codecs
模块的文档中,但您可能也希望找到类似Custom Python Charmap Codec的示例。