我正在写关于行为经济学的学士论文,在这种连贯性中,我获得了一个具有40.000个不同观察/行的数据集。
数据来自论坛,有些行是主题的开头,其他行是回复。但是,我需要对匹配的行进行分组。我试过在excel中使用文本函数,从回复中删除“RE:”,给出主题并回复一个具有相同值的变量(这是目标!)..
但是因为我的数据在“topic”变量中有一些缺失值(参见附图),我必须使用另一个变量进行识别......这导致了我的问题:
是否可以运行终端命令(mac用户),它可以获取URLS列表,并在字符之间分隔数字并将其输出到某种文本文件中?
我的网址看起来像这样:
http://www.lydmaskinen.dk/viewtopic.php?f=1&t=63898&p=553224#p553224
从“& t =”到“& p”的数字,在某些情况下,我最终没有兴趣。
A little more describing screendump
谢谢,
答案 0 :(得分:0)
这样的内容适用于您的网址:
echo 'http://www.lydmaskinen.dk/viewtopic.php?f=1&t=63898&p=553224#p553224' | cut -f2 -d '&' | cut -f2 -d '='
要在整列URL上执行此操作,我需要知道文件类型是什么(CSV,TSV,xls?)