我正在尝试提取网站条目中包含的邮寄地址(并导出为CSV)。对页面进行编码,使得超过400个包含地址的条目被分组到单个web元素中,并且不能自动地刮取数据。每个条目的地址都出现在两个相同的字符串之间。
E.g。
“下午4点至晚上9点, 12345 Main St,Seattle,WA,带上朋友!”
答案 0 :(得分:0)
您可以使用正则表达式来实现这一目标。您没有提供有关您将用于执行此操作的程序语言的任何详细信息,因此我将仅涵盖正则表达式部分(然后您可以对如何使用您的首选语言进行一些研究 - 几乎所有语言都提供了很好的支持正则表达式。)
让我们拿字符串
"下午4点至晚上9点, 12345 Main St,Seattle,WA ,带朋友!"
使用正则表达式提取所需字符串的部分:
/^4pm to 9pm, ([A-Za-z0-9, ]+), Bring friends\!$/
可以通过调整来满足您的需求(您只提供1个字符串样本,其他样本可能会影响结果)。在regex101.com
中试用更新:
根据评论,您可以使用正则表达式,如:
/pm\n([A-Za-z0-9, ]+)\nInstructors/
您应该修改字符类(可以出现在地址中的字符)。我已经在regex101.com上进行过测试,它适用于您在评论中提供的示例。