我已经坚持了很长一段时间了。 我想使用托管在专用于此的外部服务器上的Tika来解析PDF到文本。它应该适用于任何远程pdf网址和任何Tika服务器(目前使用this免费测试一些神奇的人设置)。
无论如何,这个命令在命令行上完美运行,但是无法将其转换为PHP,我希望能够获得生成的文本并将其保存到db,而不必使用exec()。
curl "https://rifed-alfgago.c9users.io/wp-content/uploads/2017/06/demopdf.pdf" | curl -X PUT -T http://beta.offenedaten.de:9998/tika
这是我到目前为止在PHP中所拥有的,但它不起作用,无法找到原因:
$fileurl = "https://rifed-alfgago.c9users.io/wp-content/uploads/2017/06/demopdf.pdf";
$file = fopen($fileurl, 'r');
$url = "http://beta.offenedaten.de:9998/tika";
$ch = curl_init();
$options = array(
CURLOPT_URL => $url,
CURLOPT_CUSTOMREQUEST => "PUT",
CURLOPT_RETURNTRANSFER => 1,
CURLOPT_HEADER => 1,
CURLOPT_CONNECTTIMEOUT => 120,
CURLOPT_TIMEOUT => 120,
CURLOPT_MAXREDIRS => 10,
CURLOPT_INFILE => $file
);
curl_setopt_array( $ch, $options );
$response = curl_exec($ch);
$httpCode = curl_getinfo($ch, CURLINFO_HTTP_CODE);
echo "<pre>".htmlspecialchars($response)."</pre>";
curl_close ($ch);
先谢谢你