无法用英语刮取数据,求助!

时间:2011-06-07 16:36:16

标签: python beautifulsoup

我有一个网站,我正在尝试使用Python& BeautifulSoup。该网站本身可以用2种语言(泰语或英语)查看;您所要做的就是点击屏幕右上角的泰国或英国国旗,数据以所选语言显示。虽然在脚本中,我只能用泰语(这是默认语言)抓取数据,我无法弄清楚如何用英语获取数据,因为当你点击任何一个时,URL都不会改变泰国或英国国旗。查看页面的源代码,没有与任何一个标志相关联的href。我打开了Firebug跟踪并试图搜索一些东西给我一个线索,但没有找到任何东西(然后你又要知道究竟要找什么才能知道发生了什么,这就是我的问题)。 / p>

谢谢, 格伦

2 个答案:

答案 0 :(得分:2)

你还没有说过这个网站是如此无法回答的。但有几点建议。如果单击该标志时URL未更改,则:

a)英语已经在html文档中,相关内容正在用javascript切换 b)通过ajax请求获取英语内容,javascript用于编辑DOM c)页面完全重新加载英文内容。

据推测,在所有这些情况下,语言首选项必须存储在会话的服务器端或客户端的cookie中。

首先测试是尝试关闭cookie和JavaScript以查看会发生什么。然后使用cookie,js重新使用Firebug或Firefox来查看正在进行的网络请求。

答案 1 :(得分:1)

这是cookie:

Cookie  verify=test; LangName=th; ASP.NET_SessionId=ylulkp45qpjq2b453nurlp55; _cbclose=1; _cbclose30246=1; _uid30246=66B70BE9.1; _ctout30246=1

如果更改语言,则设置LangName = en。

urllib2可与cookielib结合使用,以便存储和重复使用Cookie。