Question

我有一个问题。

我有一个SKU号码列表（数百个），我试图与它所属的产品的标题相匹配。我想到了实现这一目标的几种方法，但我觉得我错过了一些东西......我希望这里的某个人有一个快速有效的想法来帮助我完成这项工作。

产品来自Aidan Gray。

尝试＃1（批处理程序方法） - 失败：

在Aidan Gray中搜索SKU后，网站会返回如下所示的网址：

http://www.aidangrayhome.com/catalogsearch/result/?q=SKUNUMBER

...与＆＃34; SKUNUMBER＆＃34;显然是一个SKU。

网页的第一个结果是几乎总是该产品。

要点击第一个结果（通过地址栏），可以输入以下内容（如果通过地址栏启用了Javascript）：

javascript:{document.getElementsByClassName("product-image")[0].click;}

我想通过命令提示符创建一个.bat文件并执行以下命令：

firefox http://www.aidangrayhome.com/catalogsearch/result/?q=SKUNUMBER javascript:{document.getElementsByClassName("product-image")[0].click;}

...但Firefox似乎不允许这两个命令在同一个标签中执行。

如果有效，我将转到http://tools.buzzstream.com/meta-tag-extractor，粘贴结果链接以获取页面标题，并将数据导出为CSV格式，并复制我想要的数据。

不幸的是，我无法通过批处理程序在同一个标签页中打开网页和Javascript。

尝试＃2（我感觉幸运的方法）：

我打算使用Google的＆amp; btnI 网址后缀自动重定向到第一个结果。

http://www.google.com/search?btnI&q=site:aidangrayhome.com+SKUNUMBER

打开标签中的所有链接后，我打算使用名为＆＃34;发送标签网址＆＃34;的Firefox附加组件。将选项卡的名称（包含产品名称）复制到剪贴板。

问题是大部分结果都不够幸运......

如果有人有想法或提示要完成这项工作，我将非常感激。

Answer 1

我建议使用JScript。很容易在批处理脚本中包含hybrid code，其结构和语法对于任何习惯使用JavaScript的人来说都很熟悉，并且您可以使用它来通过XMLHTTPRequest获取网页（即知情程度较低的Ajax）并构建一个来自.responseText的DOM对象使用htmlfile COM对象。

无论如何，挑战：接受。使用.bat扩展名保存。它将查找包含SKU的文本文件，每行一个，并为每个搜索和抓取搜索页面，将第一个锚元素的信息从.className“product-image”写入CSV文件。

@if (@CodeSection == @Batch) @then

@echo off
setlocal

set "skufile=sku.txt"
set "outfile=output.csv"
set "URL=http://www.aidangrayhome.com/catalogsearch/result/?q="

rem // invoke JScript portion
cscript /nologo /e:jscript "%~f0" "%skufile%" "%outfile%" "%URL%"

echo Done.

rem // end main runtime
goto :EOF

@end // end batch / begin JScript chimera

var fso = WSH.CreateObject('scripting.filesystemobject'),
    skufile = fso.OpenTextFile(WSH.Arguments(0), 1),
    skus = skufile.ReadAll().split(/\r?\n/),
    outfile = fso.CreateTextFile(WSH.Arguments(1), true),
    URL = WSH.Arguments(2);

skufile.Close();

String.prototype.trim = function() { return this.replace(/^\s+|\s+$/g, ''); }

// returns a DOM root object
function fetch(url) {
    var XHR = WSH.CreateObject("Microsoft.XMLHTTP"),
        DOM = WSH.CreateObject('htmlfile');

    WSH.StdErr.Write('fetching ' + url);

    XHR.open("GET",url,true);
    XHR.setRequestHeader('User-Agent','XMLHTTP/1.0');
    XHR.send('');
    while (XHR.readyState!=4) {WSH.Sleep(25)};
    DOM.write(XHR.responseText);
    return DOM;
}

function out(what) {
    WSH.StdErr.Write(new Array(79).join(String.fromCharCode(8)));
    WSH.Echo(what);
    outfile.WriteLine(what);
}

WSH.Echo('Writing to ' + WSH.Arguments(1) + '...')
out('sku,product,URL');

for (var i=0; i<skus.length; i++) {
    if (!skus[i]) continue;

    var DOM = fetch(URL + skus[i]),
        anchors = DOM.getElementsByTagName('a');

    for (var j=0; j<anchors.length; j++) {
        if (/\bproduct-image\b/i.test(anchors[j].className)) {
            out(skus[i]+',"' + anchors[j].title.trim() + '","' + anchors[j].href + '"');
            break;
        }
    }
}

outfile.Close();

htmlfile COM对象不支持getElementsByClassName太糟糕了。：/但这似乎在我的测试中运作良好。

在给定网站SKU编号列表的情况下，提取产品名称的最佳方法是什么？

1 个答案: