Question

作为一名化学专业的学生，我不得不反复查找分子并获取它们的 SMILES 字符串。 SMILES 字符串是一种帮助我们在各种化学软件中重新创建分子的机制。

例如，考虑丙氨酸。我将搜索 Alanine 并前往 PubChem link。在那里，我将查找“Canonical SMILES”部分，并将 SMILES 字符串复制粘贴到我正在使用的代码中。

如果只是一个分子，我还不如做上面的。但是，我现在必须为 20 个分子执行此操作。这似乎需要大量的谷歌搜索、点击和复制粘贴。

有没有办法让这个过程自动化？是否有我可以用于这样一个过程的 python 库？你能用 grep/awk 来处理网页信息吗？

Answer 1

我用来抓取网页的模块可能有帮助吗？所有其他网络抓取模块都非常复杂，但具有更多功能。 requests 模块只是从网站获取确切数据，如果您抓取 .html 文档，它将返回类似于 <html><head><title>test</title></head></html> 的东西，只是原始数据。这对于获取更多信息可能更有帮助，但如果您只想要页面的特定部分，则可能会有点令人沮丧。

使用它的代码如下

import requests

data = requests.get("google.com")
print(data)

在您执行上述任何操作之前，大多数网站都有一个 API，可以在您的代码中准确地从网站返回您需要的数据，如果他们有 API，则在页脚中应该有一个开发人员链接

返回html文档。（确保 pip 安装请求！）

如何抓取网页并从中提取信息？

1 个答案: