精通Python编程语言,熟悉其标准库及第三方库如Beautiful Soup、Scrapy等。
丰富的网络数据采集经验,包括处理动态网页、使用代理、解析JSON/XML等。
熟悉常用的数据存储和处理技术,如MySQL、MongoDB、Pandas等。
熟悉常见的反爬虫技术,如ajax动态加载, 字体反爬, js逆向, 验证码等等能够制定有效的反封锁策略
1. 电商网站数据采集与分析项目
项目描述: 该项目旨在采集多个电商网站的商品信息,以支持公司的市场分析和竞争情报工作。
我的角色: 负责设计和实现整个爬虫系统,并处理网页反爬虫机制,确保数据的可靠性和稳定性。
使用技术: Python编程语言、Scrapy爬虫框架、Selenium库(用于处理动态网页)、MongoDB数据库。
项目成果: 建立了一个高效稳定的数据采集管道,每日自动采集数十万条商品信息,并将其存储于MongoDB数据库中
2, 社交媒体数据采集与用户行为分析项目
项目描述: 该项目旨在采集多个社交媒体平台的用户数据
我的角色: 主导整个爬虫系统的设计和开发,与数据分析团队密切合作,确保数据的质量和及时性。
使用技术: Python编程语言、Scrapy框架、js逆向、Pandas库。