在openrefine中提取包含字符串的html标记?

时间:2015-06-13 09:19:26

标签: html openrefine

标题中添加的内容不多。这就是我想要做的事情。有什么建议吗?

我查看了github上的文档并广泛搜索了。

我得到的最好的是:

value.parseHtml().select('p[contains('xyz')]')

导致语法错误。

2 个答案:

答案 0 :(得分:3)

选择'语法基于Beautiful Soup(http://jsoup.org/cookbook/extracting-data/selector-syntax

中的select语法

在这种情况下,我相信您需要的语法是:

.env

# some env variables

FOO=foo1
BAR=bar1
BAZ=1
QUX=
# QUUX=

欧文

答案 1 :(得分:1)

也许你在wiki :)上错过了我的写作(和警告)?

https://github.com/OpenRefine/OpenRefine/wiki/StrippingHTML#extract-html-attributes-text-links-with-integrated-grel-jsoup-commands

警告:在使用内置HTML GREL命令(默认输出为org.jsoup.nodes对象)时,确保在需要时使用.toString()后缀将字符串输出到Refine单元格中。否则,您可以在表达式编辑器中进行预览,但是在应用它时,Refine单元格中没有显示数据!

顺便说一句,我们怎样才能让文档变得更好,哪里,以便将来有人不会错过这个?

我甚至在使用.toString()的文档中给了一些很好的例子: https://github.com/OpenRefine/OpenRefine/wiki/GREL-Other-Functions#selectelement-e-string-s