从网站收集特定信息并将其显示在我的网站上

时间:2011-08-30 17:25:45

标签: jquery xml algorithm api web-scraping

我仍然是这个领域的新手,但我一直在寻找很长一段时间,似乎找不到任何东西,所以在这里任何帮助都会受到高度赞赏。

基本上,我有一个运动的wordpress网站,我有一个页面上有一个棒球运动员名单列表,每天晚上我需要用他们今天/晚上玩的游戏的统计数据来更新这个列表。

例如(在他们玩游戏之前)......

捕手:拉塞尔·马丁

一垒手:Mark Texeira

游击手:Derek Jeter

...等等50个其他名字。

每天晚上结束时,我必须去搜索那些玩家并找出他们当晚的统计数据,然后输入所有这些统计数据来更新列表。

例如(在他们玩游戏之后)......

麦田守望者:拉塞尔·马丁 - 2个单打,1个本垒打

一垒手:Mark Texeira - 1双

游击手:Derek Jeter - 2个本垒打

...等等50个其他名字。

我在哪里或如何查找或创建脚本或插件或从其他网站收集此特定数据(统计信息)并在我的网站上显示的内容?

也许这个资源会有用,但我不知道,因为当我尝试阅读它时我不理解它:

http://developer.yahoo.com/fantasysports/guide/

http://developer.yahoo.com/fantasysports/guide/players-collection.html

任何帮助,反馈,任何事情都将受到高度赞赏。

谢谢, 贝

1 个答案:

答案 0 :(得分:1)

你可以通过几种方式做到这一点。

雅虎!幻想体育API真的是要走的路 - 如果你要发布关于雅虎的具体问题(单独)! API,关于您需要帮助的内容,您可能会获得更多帮助。

另一种方法是页面抓取,这主要涉及以编程方式转到具有您想要的统计数据的页面(与在Web浏览器中执行相同的方式),并解析HTML以获得正确的统计信息对于合适的球员。然而,这有两个主要问题:

  1. 如果页面布局发生变化,则可能会破坏您的应用
  2. 如果您正在抓取的网站决定他们不喜欢您使用他们网页的方式,他们会阻止您
  3. 所以,雅虎! API真的是要走的路。如果文档令你感到困惑,我建议首先阅读this sub-section that shows the URIs for getting the player-specific data,然后googl'ing其他人的代码示例,以了解去哪里。