大数据分析平台主要为跨境电商的一个选品工具,可查看国外电商平台全球八大站点的所有有销量的商品和店铺数据,例如商品日\月点赞、日\月销量、日\月访客、每个SKU规格的日\月销量和该商品近30天的所有运营数据。每日离线处理亿级商品的数据爬取,汇总,分析,计算后存库供用户查看;
大数据平台分为商品模块、店铺模块、行业模块、关键词模块、个人中心、分销模块、监控模块等
● 使用ES中间件使用户可以在亿级数据中进行模糊查找
● 使用springboot作为后端架构,全球八大站点分为八个子系统加用户子系统组成伪分布式结构
● 使用mysql作为数据存储,八个站点和用户模块分为9个数据库,每个站点的商品记录数据进行分表保存,承载量可达百亿级
● 使用nginx用作反向代理、静态资源文件配置、文件下载配置和简单的防护(同IP每秒请求数的频率限制)
● 使用redis用于用户数据缓存、系统缓存,本地离线数据处理时使用redis做商品店铺的去重缓存(set),爬虫的商品地址队列(list)和每个站点的配置信息
● 使用rabbitmq用于python数据爬取+java数据处理存库
● 本地服务器用户站点环境隔离和离线数据处理
业绩:
1.不断优化商品、店铺、行业(所有分类)的数据汇总算法,使其能自动化对应官方数据的改动和过滤官方的错误数据,让每个商品和店铺的数据无限接近真实数据,相比同行业系统更加真实、精准、可溯源
2. 不断优化系统架构,使其承载量不断破新高,目前服务器成本一个月不到一万的情况下,每天可处理2亿左右的商品数据(10小时)
3. 不断优化监控方案,和容灾方案,当本地服务出问题时可及时自动恢复或人工恢复
4. 不断提升开发人员的技术水平使系统能正常推进,平稳上线。人员配备(java-1年;python-应届生;web前端-应届生)
5. 不断优化整体项目使服务成本不断降低
6. 上线后2个月用户数达到4000人