熟练使用 office 电脑办公软件;熟悉 Python 编程语言、R 语言;熟悉使用正则表达式、Excel 进行数据清洗;
掌握 SQL 语言,熟练使用 mysql、postgresql 数据库;熟悉 Tableau、matplotlib 等可视化工具;熟悉常见的
反爬虫及应对措施,了解 js 加密及逆向,了解 ip 封禁的解决方;熟悉使用打码平台处理常见的验证码识别;
熟悉 xpath 解析方法;熟悉 Selenium 相关自动化操作对网页实施动态抓取;了解 asyncio 模块的相关异步操
作;熟悉 Scrapy 爬虫框架以及 Scrapy_redis 分布式爬虫的使用;熟悉 Splash 对接 Scrapy 相关操作;了解
Scrapy 分布式部署方法;了解相关增量式爬虫的方法;熟悉移动端 APP 爬虫的方法;熟悉常见的抓包工具
(Fiddler)使用方法
1.各大自媒体平台数据获取(抖音、小红书、公众号等)
2.抖音系、阿里系的各类数据平台数据获取(淘宝、天猫、生意参谋、巨量)
1.阿里系数据获取与沉淀,包含生意参谋、策略中心; 2.抖音系数据获取与沉淀,包含巨量云图、蝉妈妈、飞瓜; 3.本品与竞品自媒体平台数据获取与沉淀,包含抖音、公众号、视频号、b站、微博、小红书; 4.数据获取与沉淀脚本代码的维护与更新;
1.阿里系数据获取与沉淀,包含生意参谋、策略中心; 2.抖音系数据获取与沉淀,包含巨量云图、蝉妈妈、飞瓜; 3.本品与竞品自媒体平台数据获取与沉淀,包含抖音、公众号、视频号、b站、微博、小红书;