Dom Document - Scrape数据

时间:2018-02-10 04:43:25

标签: javascript jquery html

我有一个jQuery脚本嵌入到我正在使用Tampbermonkey进行抓取的网页中,它运行良好,但它将html的整个主体发回给我的服务器。

嵌入我正在抓取的html页面中有这段代码:

jQuery(document.body).append("<iframe id='somenewtab' name='somenewtab' />");
jQuery(document.body).append("

<form action='https://example.com/test.php' target='somenewtab' id='form_submit_data' method='post'>
<input type='hidden' name='data' id='submit_data'><input type='submit' value=''></form>

");
jQuery("#submit_data").val( btoa(unescape(encodeURIComponent(document.body.innerHTML) )));
jQuery("#form_submit_data").submit();

该脚本抓取所有html,然后将其发布到PHP脚本,在那里它解析数据。

test.php的

$data = base64_decode($_POST['data']);
$dom = new DOMDocument();
$dom->loadHTML($data);
$select = $dom->getElementById('portfolio');

我的问题是,有没有办法只发布html的主体而没有所有的头信息或更好但只发回getElementById('portfolio')标签内的什么? id标记中的数据是我需要解析的唯一数据。

目前它会在html网页上发布所有内容,并且服务器因POST限制大小而陷入困境。

1 个答案:

答案 0 :(得分:0)

你可以使用基于Sourceforge上可用的“simplehtmldom”项目的包装器来获取dom元素的text / html,并且可以发布它。

https://github.com/sachinsinghshekhawat/simple-html-dom-parser-php