应用错误收集

时间：2011-05-24 18:50:10

标签： php search twitter count atom-feed

我正在寻找一种方法来解析原子格式的网址，例如，此处显示的结果 - http://search.twitter.com/search.atom?q=Stackoverflow&:)&since:2011-05-24&rpp=100&page=1

到目前为止，我尝试使用file_get_contents();函数，并将其保存到文本文档中，但它只输出21kb块（每次重新运行脚本时，它会附加一个新的，额外的21kb到现有文件的结尾）

我需要能够找到文档中出现字符串<published>的次数（以便查找页面上发布的推文数量）。是否有一个函数可以用来直接搜索和计算URL的HTML，或者一个用于将URL的HTML（整个，大约120kb）保存到本地文件中，然后搜索并计算该文件？

答案 0 :(得分：1)

我能想到的就是使用SimpleXML来解析它，使用Xpath只查找已发布的标签，然后计算该Xpath的结果数。这可能是我这样做的方式，但是你可以再次使用preg_match，它会返回你的正则表达式在字符串中匹配的次数