我正在使用php Pdfparser和pdftotext从pdf中提取印地文/ devnagri文本。但是,使用上述两种方法我都会得到相同的垃圾或垃圾。
垃圾,例如:
#include <iostream>
#include <fstream>
#include <string>
using namespace std;
/* data */
char buffer;
std::string fname;
int reader(){
cout << "opening file " << fname << '\n';
std::ifstream readfile(fname.c_str());
readfile >> buffer;
std::cout << buffer << '\n';
}
int write(){
cout << "writing to file " << '\n';
std::ofstream writefile(fname.c_str());
writefile << buffer;
cout << "writing done" << '\n';
}
int options(){
cout << "************************"<< '\n';
cout << "* Starting File editor *"<< '\n';
cout << "************************"<< '\n';
cout << "* Enter Filename *"<< '\n';
cin >> fname;
reader();
write();
}
int main() {
/* code */
options();
return 0;
}
如果我将此垃圾粘贴到google中,则会显示正确的印地文页面。可能是乱码是正确的,但它是另一种语言。
如果有人可以支持从pdf到文本中提取准确的可读文本。