我正在寻找一种方法来解析原子格式的网址,例如,此处显示的结果 - http://search.twitter.com/search.atom?q=Stackoverflow&:)&since:2011-05-24&rpp=100&page=1
到目前为止,我尝试使用file_get_contents();
函数,并将其保存到文本文档中,但它只输出21kb块(每次重新运行脚本时,它会附加一个新的,额外的21kb到现有文件的结尾)
我需要能够找到文档中出现字符串<published>
的次数(以便查找页面上发布的推文数量)。是否有一个函数可以用来直接搜索和计算URL的HTML,或者一个用于将URL的HTML(整个,大约120kb)保存到本地文件中,然后搜索并计算该文件?
答案 0 :(得分:1)
我能想到的就是使用SimpleXML来解析它,使用Xpath只查找已发布的标签,然后计算该Xpath的结果数。这可能是我这样做的方式,但是你可以再次使用preg_match,它会返回你的正则表达式在字符串中匹配的次数