1. 能熟练使用Java、C#、Python,理解虚拟机、垃圾回收机制。熟悉分布式缓存、消息队列,熟悉SpringBoot/SpringCloud微服务架构。
2. 熟悉C++面向对象和泛型编程,熟悉STL。掌握x86汇编语言。熟悉多线程、Socket。
3. 熟悉Oracle、SQL Server、MySQL等主流关系数据库,精通SQL优化。使用过HBase、GreenPlum等多种NoSQL或MPP产品。熟悉Hadoop、Spark等大数据技术。具有数据采集、清洗、ETL、存储、检索、分析、挖掘经历,具有丰富的数据分析思路。
1 某农产品电商平台
1) 基于F2B2C模式的电子商务平台;
2) 支持货物、服务等多种形式的商品销售;
3) 提供打折卡、优惠券、团购、秒杀等多种营销手段;
4) 支持微信、内部账户、会员卡等多种支付方式;
5) 数据中台及实时数字大屏;
6) 经营数据综合分析。
2 中标网站数据采集
1)爬取近2000网站,下载约300万条记录;
2)从不同格式的网页中提取关键信息,要求准确率达到85%(可人工干预);
3)能从PDF、图片中提取内容。
需求说明: 1) 基于F2B2C模式的电子商务平台; 2) 支持货物、服务等多种形式的商品销售; 3) 提供打折卡、优惠券、团购、秒杀等多种营销手段; 4) 支持微信、内部账户、会员卡等多种支付方式; 5) 数据中台及实时数字大屏; 6) 经营数据综合分析。 技术要
需求说明: 1)爬取近2000网站,下载约300万条记录; 2)从不同格式的网页中提取关键信息,要求准确率达到85%(可人工干预); 3)能从PDF、图片中提取内容。 技术要点: 1)运用多组正则表达式提取内容,实现60%左右的正确率; 2)使用IP池应对反爬虫机制;