Question

我正在写关于行为经济学的学士论文，在这种连贯性中，我获得了一个具有40.000个不同观察/行的数据集。

数据来自论坛，有些行是主题的开头，其他行是回复。但是，我需要对匹配的行进行分组。我试过在excel中使用文本函数，从回复中删除“RE：”，给出主题并回复一个具有相同值的变量（这是目标！）..

但是因为我的数据在“topic”变量中有一些缺失值（参见附图），我必须使用另一个变量进行识别......这导致了我的问题：

是否可以运行终端命令（mac用户），它可以获取URLS列表，并在字符之间分隔数字并将其输出到某种文本文件中？

我的网址看起来像这样：

http://www.lydmaskinen.dk/viewtopic.php?f=1&t=63898&p=553224#p553224

从“＆amp; t =”到“＆amp; p”的数字，在某些情况下，我最终没有兴趣。

谢谢，

Answer 1

这样的内容适用于您的网址：

echo 'http://www.lydmaskinen.dk/viewtopic.php?f=1&t=63898&p=553224#p553224' | cut -f2 -d '&' | cut -f2 -d '='

要在整列URL上执行此操作，我需要知道文件类型是什么（CSV，TSV，xls？）