是否可以在不使用COM对象的情况下在PHP中读取和写入Word(2003和2007)文件? 我知道我可以:
$file = fopen('c:\file.doc', 'w+');
fwrite($file, $text);
fclose();
但Word会将其读取为HTML文件而非本机.doc文件。
答案 0 :(得分:28)
读取二进制Word文档将涉及根据DOC格式的已发布文件格式规范创建解析器。我认为这不是真正可行的解决方案。
您可以使用Microsoft Office XML formats来读取和写入Word文件 - 这与Word和2003版本的Word兼容。对于阅读,您必须确保以正确的格式保存Word文档(在Word 2007中称为Word 2003 XML-Document)。对于编写,您只需遵循公开可用的XML模式。我从来没有使用这种格式从PHP写出Office文档,但是我用它来读取Excel工作表(自然保存为XML-Spreadsheet 2003)并在网页上显示其数据。由于文件显然是XML数据,因此导航并找出如何提取所需数据是没有问题的。
另一个选项 - 仅限Word 2007选项(如果Word 2003中未安装OpenXML文件格式) - 将重新排序到OpenXML。正如databyss指出here,DOCX文件格式只是一个包含XML文件的ZIP存档。关于OpenXML文件格式,MSDN上有很多资源,因此您应该能够弄清楚如何读取所需的数据。我认为写作会复杂得多 - 这取决于你投入多少时间。
也许您可以查看PHPExcel这是一个能够写入Excel 2007文件并使用OpenXML标准从Excel 2007文件读取的库。您可以了解尝试读取和编写OpenXML Word文档时所涉及的工作。
答案 1 :(得分:18)
这适用于vs< Office 2007及其纯PHP,没有COM废话,仍在试图计算2007
<?php
/*****************************************************************
This approach uses detection of NUL (chr(00)) and end line (chr(13))
to decide where the text is:
- divide the file contents up by chr(13)
- reject any slices containing a NUL
- stitch the rest together again
- clean up with a regular expression
*****************************************************************/
function parseWord($userDoc)
{
$fileHandle = fopen($userDoc, "r");
$line = @fread($fileHandle, filesize($userDoc));
$lines = explode(chr(0x0D),$line);
$outtext = "";
foreach($lines as $thisline)
{
$pos = strpos($thisline, chr(0x00));
if (($pos !== FALSE)||(strlen($thisline)==0))
{
} else {
$outtext .= $thisline." ";
}
}
$outtext = preg_replace("/[^a-zA-Z0-9\s\,\.\-\n\r\t@\/\_\(\)]/","",$outtext);
return $outtext;
}
$userDoc = "cv.doc";
$text = parseWord($userDoc);
echo $text;
?>
答案 2 :(得分:8)
您可以使用Antiword,它是适用于Linux和最流行操作系统的免费MS Word阅读器。
$document_file = 'c:\file.doc';
$text_from_doc = shell_exec('/usr/local/bin/antiword '.$document_file);
答案 3 :(得分:6)
我不知道如何在PHP中阅读本机Word文档,但如果您想用PHP编写Word文档,WordprocessingML (aka WordML)可能是一个很好的解决方案。您所要做的就是以正确的格式创建XML文档。我相信Word 2003和2007都支持WordML。
答案 4 :(得分:6)
只需更新代码
<?php
/*****************************************************************
This approach uses detection of NUL (chr(00)) and end line (chr(13))
to decide where the text is:
- divide the file contents up by chr(13)
- reject any slices containing a NUL
- stitch the rest together again
- clean up with a regular expression
*****************************************************************/
function parseWord($userDoc)
{
$fileHandle = fopen($userDoc, "r");
$word_text = @fread($fileHandle, filesize($userDoc));
$line = "";
$tam = filesize($userDoc);
$nulos = 0;
$caracteres = 0;
for($i=1536; $i<$tam; $i++)
{
$line .= $word_text[$i];
if( $word_text[$i] == 0)
{
$nulos++;
}
else
{
$nulos=0;
$caracteres++;
}
if( $nulos>1996)
{
break;
}
}
//echo $caracteres;
$lines = explode(chr(0x0D),$line);
//$outtext = "<pre>";
$outtext = "";
foreach($lines as $thisline)
{
$tam = strlen($thisline);
if( !$tam )
{
continue;
}
$new_line = "";
for($i=0; $i<$tam; $i++)
{
$onechar = $thisline[$i];
if( $onechar > chr(240) )
{
continue;
}
if( $onechar >= chr(0x20) )
{
$caracteres++;
$new_line .= $onechar;
}
if( $onechar == chr(0x14) )
{
$new_line .= "</a>";
}
if( $onechar == chr(0x07) )
{
$new_line .= "\t";
if( isset($thisline[$i+1]) )
{
if( $thisline[$i+1] == chr(0x07) )
{
$new_line .= "\n";
}
}
}
}
//troca por hiperlink
$new_line = str_replace("HYPERLINK" ,"<a href=",$new_line);
$new_line = str_replace("\o" ,">",$new_line);
$new_line .= "\n";
//link de imagens
$new_line = str_replace("INCLUDEPICTURE" ,"<br><img src=",$new_line);
$new_line = str_replace("\*" ,"><br>",$new_line);
$new_line = str_replace("MERGEFORMATINET" ,"",$new_line);
$outtext .= nl2br($new_line);
}
return $outtext;
}
$userDoc = "custo.doc";
$userDoc = "Cultura.doc";
$text = parseWord($userDoc);
echo $text;
?>
答案 5 :(得分:5)
很可能在没有COM的情况下,您将无法阅读Word文档。
涵盖了写作答案 6 :(得分:2)
2007也可能有点复杂。
.docx格式是一个zip文件,其中包含一些文件夹,其中包含其他文件,用于格式化和其他内容。
将.docx文件重命名为.zip,你会看到我的意思。
因此,如果您可以在PHP中的zip文件中工作,那么您应该走在正确的道路上。
答案 7 :(得分:2)
www.phplivedocx.org是一个基于SOAP的服务,这意味着您总是需要联机来测试文件,但是没有足够的示例供其使用。奇怪的是,我发现只有在下载2天后(需要另外的zend框架),它是一个基于SOAP的程序(诅咒我!!!)...我认为没有COM它只是不可能在Linux服务器上,唯一的想法是在另一个可以解析的可用文件中更改doc文件...
答案 8 :(得分:1)
Office 2007 .docx应该是可行的,因为它是XML标准。 Word 2003最有可能要求COM阅读,即使现在由MS发布的标准,因为这些标准是巨大的。我还没有看到很多库来编写它们以匹配它们。
答案 9 :(得分:1)
我不知道你将使用它,但我需要.doc支持搜索索引;我所做的是使用一个名为“catdoc”的小命令工具;这会将Word文档的内容传输到纯文本,以便对其进行索引。如果你需要保留格式和内容,这不是你的工具。
答案 10 :(得分:1)
phpLiveDocx 是一个Zend Framework组件,可以在Linux,Windows和Mac上以PHP语言读写DOC和DOCX文件。
请参阅项目网站:
答案 11 :(得分:1)
使用PHP操作Word文件的一种方法是PHPDocX的帮助。 你可以看看它的工作原理online tutorial。 您可以插入或提取内容,甚至可以将多个Word文件合并为一个。
答案 12 :(得分:0)
.rtf格式是否适用于您的目的? .rtf可以很容易地转换为.doc格式,但它是用明文写的(嵌入了控制命令)。这就是我计划将我的应用程序与Word文档集成的方式。
答案 13 :(得分:0)
即使我正在开发相同类型的项目[On Onlinw字处理器]! 但我选择了c#.net和ASP.net。但通过调查我做了;我知道那个
使用Open XML SDK和VSTO [Office的Visual Studio工具]
我们可以轻松地使用word文件来操作它们,甚至可以在内部转换为不同的格式,例如.odt,.pdf,.docx等。
所以,请转到msdn.microsoft.com并彻底了解办公室开发标签。这是最简单的方法,因为我们需要实现的所有功能都已经在.net !!
但是你想在PHP中做你的项目,你可以在Visual Studio和.net中做,因为PHP也是.net兼容语言之一!!
答案 14 :(得分:0)
我有同样的情况 我想我将使用一个便宜的50兆窗口托管与免费域名使用它来转换我的文件,为PHP服务器。连接它们很容易。 您只需要创建一个ASP.NET页面,通过post接收doc文件并通过HTTP回复它 如此简单的CURL就可以做到。
答案 15 :(得分:0)
直接使用以下课程阅读Word文档
class DocxConversion{
private $filename;
public function __construct($filePath) {
$this->filename = $filePath;
}
private function read_doc() {
$fileHandle = fopen($this->filename, "r");
$line = @fread($fileHandle, filesize($this->filename));
$lines = explode(chr(0x0D),$line);
$outtext = "";
foreach($lines as $thisline)
{
$pos = strpos($thisline, chr(0x00));
if (($pos !== FALSE)||(strlen($thisline)==0))
{
} else {
$outtext .= $thisline." ";
}
}
$outtext = preg_replace("/[^a-zA-Z0-9\s\,\.\-\n\r\t@\/\_\(\)]/","",$outtext);
return $outtext;
}
private function read_docx(){
$striped_content = '';
$content = '';
$zip = zip_open($this->filename);
if (!$zip || is_numeric($zip)) return false;
while ($zip_entry = zip_read($zip)) {
if (zip_entry_open($zip, $zip_entry) == FALSE) continue;
if (zip_entry_name($zip_entry) != "word/document.xml") continue;
$content .= zip_entry_read($zip_entry, zip_entry_filesize($zip_entry));
zip_entry_close($zip_entry);
}// end while
zip_close($zip);
$content = str_replace('</w:r></w:p></w:tc><w:tc>', " ", $content);
$content = str_replace('</w:r></w:p>', "\r\n", $content);
$striped_content = strip_tags($content);
return $striped_content;
}
/************************excel sheet************************************/
function xlsx_to_text($input_file){
$xml_filename = "xl/sharedStrings.xml"; //content file name
$zip_handle = new ZipArchive;
$output_text = "";
if(true === $zip_handle->open($input_file)){
if(($xml_index = $zip_handle->locateName($xml_filename)) !== false){
$xml_datas = $zip_handle->getFromIndex($xml_index);
$xml_handle = DOMDocument::loadXML($xml_datas, LIBXML_NOENT | LIBXML_XINCLUDE | LIBXML_NOERROR | LIBXML_NOWARNING);
$output_text = strip_tags($xml_handle->saveXML());
}else{
$output_text .="";
}
$zip_handle->close();
}else{
$output_text .="";
}
return $output_text;
}
/*************************power point files*****************************/
function pptx_to_text($input_file){
$zip_handle = new ZipArchive;
$output_text = "";
if(true === $zip_handle->open($input_file)){
$slide_number = 1; //loop through slide files
while(($xml_index = $zip_handle->locateName("ppt/slides/slide".$slide_number.".xml")) !== false){
$xml_datas = $zip_handle->getFromIndex($xml_index);
$xml_handle = DOMDocument::loadXML($xml_datas, LIBXML_NOENT | LIBXML_XINCLUDE | LIBXML_NOERROR | LIBXML_NOWARNING);
$output_text .= strip_tags($xml_handle->saveXML());
$slide_number++;
}
if($slide_number == 1){
$output_text .="";
}
$zip_handle->close();
}else{
$output_text .="";
}
return $output_text;
}
public function convertToText() {
if(isset($this->filename) && !file_exists($this->filename)) {
return "File Not exists";
}
$fileArray = pathinfo($this->filename);
$file_ext = $fileArray['extension'];
if($file_ext == "doc" || $file_ext == "docx" || $file_ext == "xlsx" || $file_ext == "pptx")
{
if($file_ext == "doc") {
return $this->read_doc();
} elseif($file_ext == "docx") {
return $this->read_docx();
} elseif($file_ext == "xlsx") {
return $this->xlsx_to_text();
}elseif($file_ext == "pptx") {
return $this->pptx_to_text();
}
} else {
return "Invalid File Type";
}
}
}
$docObj = new DocxConversion("test.docx"); //replace your document name with correct extension doc or docx
echo $docText= $docObj->convertToText();