好的,所以我一直在使用从Sourceforge免费下载的simple_html_dom.php。我想抓一些网站,但这些网站很旧,一个是2009年,而且编码很差。这个php文件(simple_html_dom)使用DOMDocument和那些东西,所以当你搜索某些东西时,你可以通过标签名称,属性或其他东西来搜索它。现在,我有一个div元素,里面有随机文本,然后是其他元素。
<div id="rcontent">
<font size = 3>
Random text going here cuz I'm a poor coder and I made it hard for scraping<br><br>
<a href="One.xls">Text.</a>
<a href="Two.test.txt">Text2.</a>
<a href="Three.pdf">Text3</a><br><br>......
</font>
</div>
如何在此锚标记之前提取此文本?当我使用内部文本之类的东西时,我会得到整个div,而我却不希望这样。有什么建议?提前谢谢。