如何抓取网页并从中提取信息?

时间:2021-01-15 05:21:49

标签: python web-scraping awk

作为一名化学专业的学生,​​我不得不反复查找分子并获取它们的 SMILES 字符串。 SMILES 字符串是一种帮助我们在各种化学软件中重新创建分子的机制。

例如,考虑丙氨酸。我将搜索 Alanine 并前往 PubChem link。在那里,我将查找“Canonical SMILES”部分,并将 SMILES 字符串复制粘贴到我正在使用的代码中。

如果只是一个分子,我还不如做上面的。但是,我现在必须为 20 个分子执行此操作。这似乎需要大量的谷歌搜索、点击和复制粘贴。

有没有办法让这个过程自动化?是否有我可以用于这样一个过程的 python 库?你能用 grep/awk 来处理网页信息吗?

1 个答案:

答案 0 :(得分:0)

我用来抓取网页的模块可能有帮助吗?所有其他网络抓取模块都非常复杂,但具有更多功能。 requests 模块只是从网站获取确切数据,如果您抓取 .html 文档,它将返回类似于 <html><head><title>test</title></head></html> 的东西,只是原始数据。这对于获取更多信息可能更有帮助,但如果您只想要页面的特定部分,则可能会有点令人沮丧。

使用它的代码如下

import requests

data = requests.get("google.com")
print(data)

在您执行上述任何操作之前,大多数网站都有一个 API,可以在您的代码中准确地从网站返回您需要的数据,如果他们有 API,则在页脚中应该有一个开发人员链接

返回html文档。 (确保 pip 安装请求!)