关于跨境电商批量采集话题,我在之前的博客已经谈论过好几次了。因为高效且暴力,这种批量采集方式能很方便的把一个平台上的产品批量完整的扒下来,然后鼓捣鼓捣,再批量上传到另一个平台上。批量采集应用广泛,不仅仅可以采集产品信息,同样可以进行数据的批量提交更新操作,结合一些特定环境能实现很多意想不到的效果。

跨境电商批量采集系列教程一(Tophatter)教你如何批量采集tophatter平台上的产品 17

批量采集并非什么高深莫测的技术,有很多方式可以实现。对于程序员来说,Python编写爬虫是首选方式,灵活且强大。但你不能要求人人都能熟练掌握Python这门编程语言。所以,更多的方式是通过第三方软件来实现。

这话题不好讲,来点实操。我想试着写一个跨境电商批量采集系列教程,每篇文章会对一个跨境电商平台进行批量采集演示讲解,算下来,亚马逊、ebay、速卖通、wish、lazada、cdiscount、tophatter、Newegg、Shopee、Walmart、Tradera、Etsy、Joom等等,十几个平台,够我折腾一阵子了。

考虑到大部分卖家的网络技术比较欠缺,用Python来演示估计会听得云里雾里,所以,系列教程会采用第三方采集软件-火车采集器方式进行演示。批量采集演示讲解会采用图文与视频方式进行,图文稿会开放所有读者阅读学习,视频则作为补充内容,放在会员区中向付费会员开放。

明天就是4月1日了,Tophatter从4月1日起实现卖家标准计划和顶级卖家计划。那么,我们就先从Tophatter开始,详细讲解下如何批量采集Tophatter上的产品。

一、分析

打开 tophatter 官方网站,找到产品规律与特征。为了实现批量采集,通常需要先找到展现产品的列表页,然后通过这个页面进入到产品的详细页面。

跨境电商批量采集系列教程一(Tophatter)教你如何批量采集tophatter平台上的产品 18

点击红色箭头指向的 首页的BROWSE链接,进入对应的类目页面,这里就我们要的产品列表页。

在产品列表页中,反敲鼠标右键-点击查看源代码,你会找到网页的源代码。但从上到下仔细翻阅后,你会发现,源代码中并没有任何和产品有关的文字内容可供采集。

是的,通常大部分网站都会直接将产品信息在源代码中直接显示,这样的话,我们只要对代码中需要的内容进行前后截取即可。不过,技术不断更新,日新月异,目前,越来越多的网站弃用了这种传统网站制作方式,更多的是将数据存储在Json中,通过ajax异步加载方式实现,并不直接在源代码中显示。这种数据抓取方式会复杂一些,但仍然有办法可以抓到。

跨境电商批量采集系列教程一(Tophatter)教你如何批量采集tophatter平台上的产品 19

打开你的Chrome浏览器,没有的话就安装一个,这里需要用到Chrome的开发者工具,按F12 ,刷新页面,观察XHR,你会找到一个可疑的JSON数据包链接,复制这个链接地址,在浏览器中打开这个链接,你会看到类似下图内容,这就是我们需要的产品列表页的内容。

跨境电商批量采集系列教程一(Tophatter)教你如何批量采集tophatter平台上的产品 20

一堆乱码,看不懂也没关系,这么乱,我也看不懂,那么将这些内容复制粘贴到 https://www.json.cn 这里,格式化后查看你可以看到如下内容:

跨境电商批量采集系列教程一(Tophatter)教你如何批量采集tophatter平台上的产品 21

这样就清晰多了,这是一个产品的字段信息,包括了id、图片、长、宽、高、价格、评分、折扣等信息。仔细检查发现,我们要的产品标题和描述内容这些信息并没在这里面。

我们继续找规律,在列表点击其中一个产品,可以进入产品页面,观察XHR,你会看到如下图这个json数据包链接,同样上述步骤,在浏览器中打开这个链接,复制内容到www.json.cn 格式化后看到了产品的详细信息了。

跨境电商批量采集系列教程一(Tophatter)教你如何批量采集tophatter平台上的产品 22

跨境电商批量采集系列教程一(Tophatter)教你如何批量采集tophatter平台上的产品 23

非常完整,运费、关注度、描述、变体信息全部都在。接下来,就是抓取信息了。

二、抓取

这里只做演示,所以,只采集其中一个字段,按照这个方法,以此类推,即可采集到完整的数据信息。

打开火车采集器,新建一个任务。开始之前,还得分析下列表页和产品页之间的联系。

列表页:https://tophatter.com/api/v1/catalogs/9180/retrieve.json?per_page=50&page=2

看到后面的per_page=50和page=2,多找几个,你会发现,per_page=50是固定不变的,page=2则会在鼠标滚动一次增加1,按照字面上的意思per_page表示每页显示50个,page是指当前加载到第几页。这样就好理解了,如果我要把这个类目的100页面产品全部抓取下来,那么只要把page-2改成100,然后,100页*50个=-5000,如此,通过这种方式就可以得到5000个产品了。

内容页:https://tophatter.com/api/v1/lots/61057684?source=catalog-9180

当然,我们要抓的是产品详细信息,所以,找出列表页和文本页之间的关联,仔细分析,你会发现这个id是之间的关联节点。那么我们就可以从这里入手去爬取信息了。

跨境电商批量采集系列教程一(Tophatter)教你如何批量采集tophatter平台上的产品 24

如上图,把page=后面的数字用[地址参数]替换,在下面的数字变换中填入你希望抓取的页面。在预览中即可看到这些列表页了。接下来,在列表页内容中继续找规律。

跨境电商批量采集系列教程一(Tophatter)教你如何批量采集tophatter平台上的产品 25

发现了什么?这个id似乎是有规则的出现。比如: {“id”:10262283,”product_parent_id” 这样的话,我们可以通过变量替换方式,把这个id拼接到内容页上,如下图所示;

跨境电商批量采集系列教程一(Tophatter)教你如何批量采集tophatter平台上的产品 26

点击网址采集测试看看效果;看下图,果然可以,已经成功采集到了内容页了。

跨境电商批量采集系列教程一(Tophatter)教你如何批量采集tophatter平台上的产品 27

接下来就可以抓取内容页的详细信息了。

抓取内容有2种方式可以实现。第一种就跟上面的一样,前后截取,第二种是更智能化的json方式。

跨境电商批量采集系列教程一(Tophatter)教你如何批量采集tophatter平台上的产品 28

 

在内容采集规则页上新建title字段,按上图步骤,点json提取,点选择,将内容页json链接地址输入到url中,或者将json文本粘贴到json文本中,点击title,确定。到这里,我们就顺利抓取到了title标题信息。

跨境电商批量采集系列教程一(Tophatter)教你如何批量采集tophatter平台上的产品 29

那么,运行下采集试试。

跨境电商批量采集系列教程一(Tophatter)教你如何批量采集tophatter平台上的产品 30

果然可以。最后,简单设置下保存的文件。

跨境电商批量采集系列教程一(Tophatter)教你如何批量采集tophatter平台上的产品 31

开始采集….别太凶悍,适当降低采集速度。

跨境电商批量采集系列教程一(Tophatter)教你如何批量采集tophatter平台上的产品 32

已经采集到了,完成文件发布后,在桌面上可以找到数据文件。到这里,采集工作就全部做完了。

总结:

这个演示实例,只采集了titile。你可以用同样的方法将描述、价格、图片、评级等所有信息采集下来。我在以前的文章也反复提到过,谨慎使用这种方式进行铺货,特别是在你没有一套相对完善的产品管理系统之前,不要乱来。这种方式是暴力且高效,但切勿滥用,以免引火烧身。批量采集并非什么高深技术,会些技术的卖家都能做到,这更不是什么黑科技,小心被骗了。

[box style=”info”] 在线观看本篇内容视频讲解:(立即订阅-学习晨飞博客跨境电商经验分享

[/box]

5/5 - ( 1 vote )

跨境电商独立站Shopify建站与运营指南

Shopify,2006年成立于加拿大渥太华,全球有100万商家通过Shopify来建立他们的网站,销售产品和服务。这是由晨飞创建的一个关于Shopify建站和运营的免费教学指南网站,通过这个网站,您将学习到如何自己动手用Shopify来建立自己的独立电商网站,并利用Shopify提供的各种配套工具和服务来运营推广自己的跨境电商业务。

从零起步 跨境电商独立站Woocommerce完整搭建教程

在全球前100万电商网站中,30%的网站使用WooCommerce,18%的网站选择Shopify。对比全球排名前1万的电商网站,只有6%使用WooCommerce,而23%使用Shopify。显然,WooCommerce建站成本更低。本文将详细介绍如何从零起步,一步一步去搭建一个完整的WooCommerce电商独立站。

申请租用一个美国地址用来收信收快递转运包裹

作为跨境创业者,我们经常会有美国真实街道地址(physical street address)服务的需求。申请租用一个美国的真实街道地址,收信收收支票收包裹转运回国。这种需求随着跨境业务的不断提升,用的也越来越多。慢慢的发现,租用美国地址成了跨境创业的必备条件。如果懒得去筛选对比,想省事,也可以选择我所使用的 TravelingMailbox 的地址,大概50个地址可供选择。

2021年Payoneer派安盈注册与使用完整教程指南

Payoneer,中文名称为“派安盈”,常被称呼为P卡,是一家专注做平台资金下发的专业金融机构。Payoneer是跨境创业者必备的一个跨境收款工具,Payoneer被广泛用于跨境电商平台收款,用于自由职业者的劳务和创作收款,Payoneer是一款使用广泛,增值服务多,功能齐全的跨境收款工具。

Cloudways主机 跨境电商独立站首选主机

Cloudways可以理解为一个主机服务器管理平台,Cloudways开发了一整套高效率的主机管理平台,实现一键配置操作系统,能像虚拟主机一样,通过一个控制面板,就能创建新的网站,绑定域名,获得ssl安全证书,设置备份,PHP版本切换,PHP参数修改,phpmyadmin数据库管理,CDN内容同步网络以及服务器性能优化等等。

全程记录用2个月的美国信用记录成功获批美国信用卡

Amex Hilton Honors Aspire是希尔顿酒店集团与美国运通推出的联名高端信用卡。因其超高的福利,获批后即送希尔顿酒店最高等级的钻石会籍,以及不限次数使用全球1300多个机场贵宾厅,被誉为美国信用卡中的神卡。申请美国信用卡需要满足一定的条件,包括美国银行账户、美国信用记录、美国地址和电话等等。

全球销量第一的WordPress模板-Avada

我曾购买过不少wordpress商业主题模板用于搭建各种网站。对比来说,Avada是我使用最多的一套商业主题模板了。Avada是全球销量最高的WordPress商业主题模板。学习使用Avada并不简单。正确理解Avada设计原理,学会用Layout去布局网页,将会大大缩短Avada的学习过程。

Alidropship一键搬运速卖通产品 独立站Dropshipping代发货

AliDropship是一款基于WordPress开发的Dropshipping代发货插件,用于快速搬运速卖通产品,高效运营跨境电商独立站工作。AliDropship的很多功能都可以通过自动化完成,结合AliDropship的Chrome浏览器插件,可以快速将速卖通上的产品导入到网站中,大大提高产品上传效率。

Rank Math插件 跨境独立站SEO必备工具

Rank Math插件是一款WordPress SEO插件,安装量接近100万,内置了数十个有助于提升网站SEO优化效果的实用功能。Rank Math与Google系列产品高度集成,包括Google Search Console,Google Analytics以及Google Trends。其中,Instant Indexing功能利用Google index API可以让用户的新页面在1-2个小时内被Google快速收录。

Velo华美银行美国银行账户 真正的美国银行账户

Velo华美银行签发的美国银行账户是一个真正意义上的美国银行账户,而非跨境收款公司提供的二级虚拟美国银行账户。Velo能签发美国Visa借记卡和担保信用卡,可以在国内ATM取现,并且账单头两笔免费。担保信用卡可以帮助在美国建立个人信用。持卡超过一定时间,有了信用记录之后,就可以再去申请美国大银行的信用卡了。

ILAC加拿大在线英语培训课程 快速提升英文水平

ILAC是加拿大最大的英语语言学校,每年有90多个国家1.6万名学生在ILAC学习英语。ILAC提供的在线英文课程性价比超高,价格便宜,全英文授课,其衔接课程可免雅思成绩入学加拿大大学。我参加了7个月的课程,每天三小时,每周五天密集学习,英语能力有了大幅提升,我用实际经历帮大家找到靠谱的英文学习途径。

评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据