OpenRefine中的网页标题的域名

时间:2014-03-26 15:18:46

标签: openrefine

我在Excel中有一个域名列(如stackoverflow.com),并希望创建一个带有域名标题的相应列(例如" Stack Overflow")。

我将Excel文件上传到OpenRefine。我认为最好的方法是通过在列"上提取URL来调用"添加列。功能。但我不知道要使用什么表达方式。

1 个答案:

答案 0 :(得分:0)

我这样做的方式如下:

(1)在源列中有可访问的URL。即,http://stackoverflow.com而不仅仅是域名。

(2)应用"通过提取网址添加列..."如你所说。 (如果您反复敲击同一个域中的网页,请确保设置合理的延迟。)

(3)使用第一个新列,通过解析返回的HTML,基于newCol1创建第二个新列:

value.parseHtml()选择("标题&#34)。[0]的ToString()

注意: (a)您需要toString()否则在应用函数后,您将在新列中看到空白值。

(b)您不必创建第二个新专栏;你可以使用与上面相同的公式来应用变换。

(c)我也试过使用拆分:

value.split("")[1] .split("")[0]

目前我的结果并不方便,但我相信这也有用。