在字符串之间提取字符串

时间:2017-10-16 21:14:47

标签: html plaintext

我正在尝试提取网站条目中包含的邮​​寄地址(并导出为CSV)。对页面进行编码,使得超过400个包含地址的条目被分组到单个web元素中,并且不能自动地刮取数据。每个条目的地址都出现在两个相同的字符串之间。

E.g。

“下午4点至晚上9点, 12345 Main St,Seattle,WA,带上朋友!”

1 个答案:

答案 0 :(得分:0)

您可以使用正则表达式来实现这一目标。您没有提供有关您将用于执行此操作的程序语言的任何详细信息,因此我将仅涵盖正则表达式部分(然后您可以对如何使用您的首选语言进行一些研究 - 几乎所有语言都提供了很好的支持正则表达式。)

让我们拿字符串

  

"下午4点至晚上9点, 12345 Main St,Seattle,WA ,带朋友!"

使用正则表达式提取所需字符串的部分:

/^4pm to 9pm, ([A-Za-z0-9, ]+), Bring friends\!$/

可以通过调整来满足您的需求(您只提供1个字符串样本,其他样本可能会影响结果)。在regex101.com

中试用

更新:

根据评论,您可以使用正则表达式,如:

/pm\n([A-Za-z0-9, ]+)\nInstructors/

您应该修改字符类(可以出现在地址中的字符)。我已经在regex101.com上进行过测试,它适用于您在评论中提供的示例。