使用简单的正则表达式:
Status: (.*?),(.*?)\s
我可以轻松提取"更新"和"进行中"从
Status: In-Progress,Updated
请参阅https://regex101.com/r/mV7gF5/1
我正在尝试与Sphinx做类似的事情,因为它要快得多。有没有办法用SphinxQL做到这一点?我甚至不介意它是否需要后处理,但我不能在我的生活中找出一个sphinxQL,因为它看起来更像字面。
答案 0 :(得分:0)
sphinx可以为您提供包含“状态”一词的文档列表,甚至包含Status: .*,.*
的文档列表,如果要添加:和charset_table。
但它不能进行任何类型的术语提取,需要对这些文档进行后处理(并且可能对它们执行正则表达式!)。最接近的是CALL SNIPPETS,它有文本匹配,但它没有正则表达式语法。