Question

我正在尝试提取网站条目中包含的邮寄地址（并导出为CSV）。对页面进行编码，使得超过400个包含地址的条目被分组到单个web元素中，并且不能自动地刮取数据。每个条目的地址都出现在两个相同的字符串之间。

E.g。

“下午4点至晚上9点， 12345 Main St，Seattle，WA，带上朋友！”

Answer 1

您可以使用正则表达式来实现这一目标。您没有提供有关您将用于执行此操作的程序语言的任何详细信息，因此我将仅涵盖正则表达式部分（然后您可以对如何使用您的首选语言进行一些研究 - 几乎所有语言都提供了很好的支持正则表达式。）

让我们拿字符串

＆＃34;下午4点至晚上9点， 12345 Main St，Seattle，WA ，带朋友！＆＃34;

使用正则表达式提取所需字符串的部分：

/^4pm to 9pm, ([A-Za-z0-9, ]+), Bring friends\!$/

可以通过调整来满足您的需求（您只提供1个字符串样本，其他样本可能会影响结果）。在regex101.com

中试用

更新：

根据评论，您可以使用正则表达式，如：

/pm\n([A-Za-z0-9, ]+)\nInstructors/

您应该修改字符类（可以出现在地址中的字符）。我已经在regex101.com上进行过测试，它适用于您在评论中提供的示例。