我想提取基于PHP(Joomla)网站的所有href值,并将其保存为CSV或类似内容。我可以访问MySQL内容表,这样我就可以根据需要梳理原始数据。
我可能需要过滤掉我以后提取的内容,但现在我欢迎任何想法开始。
提前致谢!
答案 0 :(得分:1)
您可以使用HTML解析器来解析HTML内容;它是来自文本文件,数据库字段还是URL。解析器可以允许您有选择地从HTML中提取内容,例如href
标记上的<a>
属性。
我使用PHP Simple HTML DOM Parser从网站中提取~1.5 Gig的数据。该页面上有一个5-10行示例,可帮助您入门。您还可以使用PHP DOM函数来完成工作。关于从HTML块中提取特定内容(标签,属性,文本节点),您可以找到大量关于SO的示例。