脚本在网站上运行搜索并返回结果

时间:2012-06-20 18:28:15

标签: python r search

我感兴趣的是我正在进行系统性文献综述的以下过程的自动化。

我有大量的致病因子列表,我想对医学文献进行批量搜索并返回从每种类型的bug中得到的结果,然后将它们放在一个漂亮的CSV文件中,这样我就可以阅读它们了进入R并处理一些统计/频率分布等。

我可以使用excel表和CTRL C + CTRL V完成所有操作,但这需要一些时间。

基本上我需要一些方法与托管我想要搜索的数据库的OvidSP交谈,然后输入正确格式化的字符串以进行我想要的确切搜索。然后让OvidSP运行搜索我,并返回它获得的命中数。我想如果他们有可用的API会很容易 - 我已经直接通过电子邮件发送了这个。

我想知道是否有人认为这是可能的,或者什么是为此任务编写脚本的最佳方法。我有一些Java,C ++和开始学习R的经验 - 我也想知道Python是否有用?

这是我希望实现的目标的快速说明

我想要搜索的错误(通过CSV文件输入程序可以说)
*沙门氏菌
*大肠杆菌
*流感

在此处插入花哨程序,使用我的凭据连接到Ovid并运行以下搜索

1 - 沙门氏菌和发烧和医院 - 返回9342结果
2 - 大肠杆菌和发烧和医院 - 返回93821结果
3 - 流感和发烧和医院 - 返回323结果

程序将这些数据写入格式良好的CSV文件中,我可以将其用于某些统计信息

我希望这是有道理的!提前谢谢。

1 个答案:

答案 0 :(得分:0)

原则上它是可行的,大问题是解析返回数据(可能很难,可能很容易)和身份验证(可能不是很难,但取决于他们网站的结构)。

您要查看的python模块是urllib2(对于请求),csv(对于csv)和beautifulSoup

在Python中编写它的好处是你可以交互式地探索返回的html(在python shell中),因此有一个更容易的时间来弄清楚如何从html中提取少量有趣的数据你将会回来。