通过pdftotext或pdfparser从pdf中提取印地文/ devnagri文本时得到相同的垃圾

时间:2019-04-18 05:47:21

标签: php pdf pdftotext pdfparser

我正在使用php Pdfparser和pdftotext从pdf中提取印地文/ devnagri文本。但是,使用上述两种方法我都会得到相同的垃圾或垃圾。

垃圾,例如:

#include <iostream>
#include <fstream>
#include <string>
using namespace std;

/* data */
char buffer;
std::string fname;

int reader(){
    cout << "opening file " << fname << '\n';
    std::ifstream readfile(fname.c_str());
    readfile >> buffer;
    std::cout << buffer << '\n';
}

int write(){
    cout << "writing to file " << '\n';
    std::ofstream writefile(fname.c_str());
    writefile << buffer;
    cout << "writing done" << '\n';
}

int options(){
    cout << "************************"<< '\n';
    cout << "* Starting File editor *"<< '\n';
    cout << "************************"<< '\n';
    cout << "* Enter Filename *"<< '\n';
    cin >> fname;
    reader();
    write();
}

int main() {
    /* code */
    options();
    return 0;
}

如果我将此垃圾粘贴到google中,则会显示正确的印地文页面。可能是乱码是正确的,但它是另一种语言。

如果有人可以支持从pdf到文本中提取准确的可读文本。

0 个答案:

没有答案