我有一个包含一列数据的抓取数据集,如下所示:
<td>1,968</td>
<td>185</td>
<td>1,285<sup id="cite_ref-4" class="reference"><a href="#cite_note-4">[4]</a></sup></td>
我正在使用Alteryx处理数据,我想使用正则表达式来提取html标记<td>
和</td>
之间的数字。所以在上面的例子中,我应该回到1968,185和1285.我尝试了以下正则表达式,但都没有工作using this tester。我相信正则表达式的版本应该是Al for Alteryx,但不确定。
>([0-9]+)<
>[0-9]+<
有人可以对此有所了解吗?谢谢!
答案 0 :(得分:1)
备用Alteryx方法:使用公式工具删除<td>
以及逗号和空格,然后使用选择工具将剩余的内容转换为您选择的数字类型...它将自动获取所有内容直到第一个非数字字符。