有位会员向我反馈到:“仔细看了您博客上的跨境电商批量采集系列教程,收获很大,现在也开始试着做一些采集分析工作了。但感觉还是太复杂了,很伤脑筋,有没有更简便的方法么?”

我想说:“有,肯定是有的,只是简便的方法可能让你更伤脑筋。”

一般来说,采集产品数据可以通过第三方ERP平台、专业的采集软件以及独立编程等方式实现。很多ERP平台都提供了标准的采集功能,比如店小秘,卖家可以直接在线采集各大跨境电商平台上的产品;第二种是我之前介绍的类似火车采集器这种采集软件,可以自由定制采集规则,效果要远高于ERP平台的采集功能;而第三种则是自己独立编程方式来进行采集,这也是目前效果最佳,能力最强的采集方式了。当然,绝大部分卖家并没有网络编程基础,所以,我在之前的博客中也尽量分享一些通俗易懂的内容,极少分享独立编程方面的内容。

采集产品有没有更简便的方法?教你如何用七行代码将lazada平台列表页面产品抓取下来 9

今天就做个简单的Python编程采集演示,请放心,这次的演示也同样是通俗易懂的,也让所有读者都可以试着自己动手采集体验一下。我们先找个比较容易采集的平台进行示范,那么,这次就用lazada来演示。

采集演示:

第一步:打开lazada的马来西亚站点,网址输入 https://www.lazada.com.my/

采集产品有没有更简便的方法?教你如何用七行代码将lazada平台列表页面产品抓取下来 10

在Categories分类中,随便选择一个类目,进去这个品类的产品列表页面;

采集产品有没有更简便的方法?教你如何用七行代码将lazada平台列表页面产品抓取下来 11

第二步:在产品列表页面分析出产品数据存储方式与地址信息;

这里要用Chrome浏览器,按”F12″,打开调试模式;鼠标点击XHR选项卡,然后,我们进行翻页测试,并观察XHR选项卡内容变化;这时候,你会发现,每翻一页,就会出现一个?abbucket=&a开头的链接,我们将这个链接完整复制一下,粘贴到记事本看看,内容如下:

https://www.lazada.com.my/portable-speakers-for-tv/?abbucket=&abtest=&acm=icms-zebra-5000097-2585699.1003.1.2262485&clickTrackInfo=e3da73a4-cca6-4f23-b0a0-da6c4d91d077__8497__132833676__u2i&from=hp_categories&item_id=132833676&page=4&pos=1&scm=1007.17253.98102.0&spm=a2o4k.home.categories.1.b4f824f6XOvwja&up_id=132833676&version=v2

仔细分析后,你会发现,每翻一页,只有page= 后面的数字变化了,那么,我们就将一长串地址信息清理下,最后得到这个链接:

https://www.lazada.com.my/portable-speakers-for-tv/?ajax=true&page=4&version=v2

将这个地址输入浏览器地址栏上,打开后你会发现,一大对编码。如果你有一些编程经验,很容易理解这是什么内容。是的,这就是这个列表页面上的完整就json数据包。

采集产品有没有更简便的方法?教你如何用七行代码将lazada平台列表页面产品抓取下来 12

第三步:找出json数据包规律。将这些代码完整复制粘贴到www.json.cn上,然后一个一个点开节点,分析下,找到产品信息存储在哪个节点。一番查找后,你会发现,这个页面一共有40个产品,在mods节点下的listItems节点下。

采集产品有没有更简便的方法?教你如何用七行代码将lazada平台列表页面产品抓取下来 13

第四步:到这里,我们就要开始编写python程序采集这些产品数据了。在采集之前,还得解决下python的运行环境问题。当然,全新安装有些繁琐,我们找个最简单的办法,直接使用在线的网页版python编程工具-jupyter notebook来完成程序编写与采集工作;

直接打开jupyter notebook,点击 这个链接 https://mybinder.org/v2/gh/ipython/ipython-in-depth/master?filepath=binder/Index.ipynb

采集产品有没有更简便的方法?教你如何用七行代码将lazada平台列表页面产品抓取下来 14

第五步:编写Python采集程序;

采集产品有没有更简便的方法?教你如何用七行代码将lazada平台列表页面产品抓取下来 15

在Jupyter Notebook中输入以下代码,然后执行。程序即会自动将这个页面上的所有产品采集下来,并且保存为csv格式;

[cc lang=”python”] import requests
import json
import pandas
res = requests.get(“https://www.lazada.com.my/portable-speakers-for-tv/?ajax=true&page=7&version=v2”)
data = json.loads(res.text)
jsdata = (data[“mods”][“listItems”])
pandas.DataFrame(jsdata).to_csv(“lazada.csv”)[/cc]

简单讲下这段代码的意思:

这里用到了几个第三方包:requests、json、pandas
requests负责抓取https://www.lazada.com.my/portable-speakers-for-tv/?ajax=true&page=7&version=v2 这个地址的数据,赋值给res;
json.loads加载res.text 赋值给data;
然后从data找到一级节点[“mods”]和二级节点[“listItems”]获得产品完整数据信息,赋值给jsdata;
利用pandas.DataFrame将jsdata命名为lazada.csv并存储为csv格式;

第六步:将采集到的文件下载到本地;

采集产品有没有更简便的方法?教你如何用七行代码将lazada平台列表页面产品抓取下来 16

到这里,你所采集到的产品数据就保存在了本地电脑上了。

当然,这只是个最简单的演示,这些数据并不能直接拿来使用,距离直接使用还有很多的分析与处理工作要做。大家也可以摸索着改进下这个程序。好了,不能讲太多,有些费脑子,不懂也没关系,看看就行。

如果你是会员,别担心。有空的话,我会完善好这个采集程序,将翻页采集、内容清理等工作做完。如果你有兴趣的话,可以到会员区复制这段代码,参考我的做法,修修改改,改成适合自己使用的一个采集小工具。当然,你也可以举一反三,在其他平台上试着用同样的方式去编写程序。

思考总会让人进步。那么,我们也可以再思考一下。各个平台的api授权反馈数据好像也是json数据包格式,看过今天的教程,我想您大概也能理解那些第三方ERP系统的处理订单和批量上传产品的工作原理了。

请对本文内容质量评分。

跨境电商独立站Shopify建站与运营指南

Shopify,2006年成立于加拿大渥太华,全球有100万商家通过Shopify来建立他们的网站,销售产品和服务。这是由晨飞创建的一个关于Shopify建站和运营的免费教学指南网站,通过这个网站,您将学习到如何自己动手用Shopify来建立自己的独立电商网站,并利用Shopify提供的各种配套工具和服务来运营推广自己的跨境电商业务。

从零起步 跨境电商独立站Woocommerce完整搭建教程

在全球前100万电商网站中,30%的网站使用WooCommerce,18%的网站选择Shopify。对比全球排名前1万的电商网站,只有6%使用WooCommerce,而23%使用Shopify。显然,WooCommerce建站成本更低。本文将详细介绍如何从零起步,一步一步去搭建一个完整的WooCommerce电商独立站。

申请租用一个美国地址用来收信收快递转运包裹

作为跨境创业者,我们经常会有美国真实街道地址(physical street address)服务的需求。申请租用一个美国的真实街道地址,收信收收支票收包裹转运回国。这种需求随着跨境业务的不断提升,用的也越来越多。慢慢的发现,租用美国地址成了跨境创业的必备条件。如果懒得去筛选对比,想省事,也可以选择我所使用的 TravelingMailbox 的地址,大概50个地址可供选择。

2021年Payoneer派安盈注册与使用完整教程指南

Payoneer,中文名称为“派安盈”,常被称呼为P卡,是一家专注做平台资金下发的专业金融机构。Payoneer是跨境创业者必备的一个跨境收款工具,Payoneer被广泛用于跨境电商平台收款,用于自由职业者的劳务和创作收款,Payoneer是一款使用广泛,增值服务多,功能齐全的跨境收款工具。

Cloudways主机 跨境电商独立站首选主机

Cloudways可以理解为一个主机服务器管理平台,Cloudways开发了一整套高效率的主机管理平台,实现一键配置操作系统,能像虚拟主机一样,通过一个控制面板,就能创建新的网站,绑定域名,获得ssl安全证书,设置备份,PHP版本切换,PHP参数修改,phpmyadmin数据库管理,CDN内容同步网络以及服务器性能优化等等。

全程记录用2个月的美国信用记录成功获批美国信用卡

Amex Hilton Honors Aspire是希尔顿酒店集团与美国运通推出的联名高端信用卡。因其超高的福利,获批后即送希尔顿酒店最高等级的钻石会籍,以及不限次数使用全球1300多个机场贵宾厅,被誉为美国信用卡中的神卡。申请美国信用卡需要满足一定的条件,包括美国银行账户、美国信用记录、美国地址和电话等等。

全球销量第一的WordPress模板-Avada

我曾购买过不少wordpress商业主题模板用于搭建各种网站。对比来说,Avada是我使用最多的一套商业主题模板了。Avada是全球销量最高的WordPress商业主题模板。学习使用Avada并不简单。正确理解Avada设计原理,学会用Layout去布局网页,将会大大缩短Avada的学习过程。

Alidropship一键搬运速卖通产品 独立站Dropshipping代发货

AliDropship是一款基于WordPress开发的Dropshipping代发货插件,用于快速搬运速卖通产品,高效运营跨境电商独立站工作。AliDropship的很多功能都可以通过自动化完成,结合AliDropship的Chrome浏览器插件,可以快速将速卖通上的产品导入到网站中,大大提高产品上传效率。

Rank Math插件 跨境独立站SEO必备工具

Rank Math插件是一款WordPress SEO插件,安装量接近100万,内置了数十个有助于提升网站SEO优化效果的实用功能。Rank Math与Google系列产品高度集成,包括Google Search Console,Google Analytics以及Google Trends。其中,Instant Indexing功能利用Google index API可以让用户的新页面在1-2个小时内被Google快速收录。

Velo华美银行美国银行账户 真正的美国银行账户

Velo华美银行签发的美国银行账户是一个真正意义上的美国银行账户,而非跨境收款公司提供的二级虚拟美国银行账户。Velo能签发美国Visa借记卡和担保信用卡,可以在国内ATM取现,并且账单头两笔免费。担保信用卡可以帮助在美国建立个人信用。持卡超过一定时间,有了信用记录之后,就可以再去申请美国大银行的信用卡了。

ILAC加拿大在线英语培训课程 快速提升英文水平

ILAC是加拿大最大的英语语言学校,每年有90多个国家1.6万名学生在ILAC学习英语。ILAC提供的在线英文课程性价比超高,价格便宜,全英文授课,其衔接课程可免雅思成绩入学加拿大大学。我参加了7个月的课程,每天三小时,每周五天密集学习,英语能力有了大幅提升,我用实际经历帮大家找到靠谱的英文学习途径。

评论

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据