我刚刚发现了domdocument并且之前一直在使用正则表达式。
我需要返回包含所有输入的整个表单元素。
我不需要创建一个完整的文档,我只想要那个部分,在一个我可以操作的字符串中。我一直在搞乱下面的代码,试图让它做一些有用的东西,但到目前为止,没什么。
在我回到正则表达式之前,有没有人能理解这一点?
//get HTML into variable
$curl = curl_init();
curl_setopt($curl, CURLOPT_URL, 'https://www.openroadlending.com/Apply.aspx?aid=134');
curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
$html=curl_exec($curl);
$dom = new domDocument;
@$dom->loadHTML($html);
$dom->preserveWhiteSpace=false;
$xpath = new DOMXPath($dom);
$body = $xpath->query('html/');
echo var_dump($body);
//echo $body->item(0);
$inputs = $xpath->getElementsByTagName('form');
// foreach($inputs as $in){
// $input = $in->saveHTML;
// //echo $input;
// }
答案 0 :(得分:3)
DOMXPath
没有方法getElementsByTagName
。您可以通过多种方法访问表单
getElementsByTagName
$forms = $dom->getElementsByTagName('form');
XPath查询
$forms = $xpath->query('//form');
获得之后的表单(通过从$forms
集合中选择或使用更专业的XPath查询),您可以使用
$formHTML = $dom->saveHTML($form);
答案 1 :(得分:2)
您可以使用此功能
function DOMinnerHTML($element)
{
$innerHTML = "";
$children = $element->childNodes;
foreach ($children as $child)
{
$tmp_dom = new DOMDocument();
$tmp_dom->appendChild($tmp_dom->importNode($child, true));
$innerHTML.=trim($tmp_dom->saveHTML());
}
return $innerHTML;
}
并像这样使用
$productspec=$dom->getElementsByTagName('form')
foreach($productspec as $data)
{
echo DOMinnerHTML($data);
}
并且您可以使用此功能获取按类获取元素
function GetBYClass($Doc,$ClassName){
$finder = new DomXPath($Doc);
return($finder->query("//*[contains(@class, '$ClassName')]"));
}
并且此功能与此问题无关但有用
function ExtractText($node) {
if($node==NULL)return false;
if (XML_TEXT_NODE === $node->nodeType || XML_CDATA_SECTION_NODE === $node->nodeType) {
return $node->nodeValue;
} else if (XML_ELEMENT_NODE === $node->nodeType || XML_DOCUMENT_NODE === $node->nodeType || XML_DOCUMENT_FRAG_NODE === $node->nodeType) {
if ('script' === $node->nodeName) return '';
$text = '';
foreach($node->childNodes as $childNode) {
$text .= $this->extractText($childNode);
}
return $text;
}
}