- 熟练掌握Python、Scrapy、BeautifulSoup、Selenium等爬虫技术栈。
- 精通网络协议(HTTP/HTTPS)、数据解析(HTML/XML/JSON)及数据存储(SQL/NoSQL数据库)。
- 有分布式爬虫框架(如Scrapy Cluster、PySpider)的开发和运维经验。
- 熟悉数据处理和分析工具(如Pandas、NumPy、Spark)。
- 具备扎实的计算机网络、操作系统、并发编程等基础知识。
- 设计并实现了一个高并发分布式爬虫系统,用于采集和处理超过1000万条网页数据,极大提升了数据采集效率。
- 通过实施代理池和请求随机化技术,成功解决了多个目标网站的反爬虫机制问题。
- 领导开发了一个实时数据监控系统,通过数据抓取和分析,为业务部门提供了精准的数据支持和决策依据。
实时监听得物app各类产品的价格波动 当产品价格波动到达设定的范围时,立即通过微信方式通知 通知消息中附带产品的各项参数和价格 所有程序均部署在服务器并长期稳定运行
集合各类搜索引擎,可手动筛选设置搜索的关键词和搜索引擎种类 将搜索结果聚合整理,统一导出 可使用AI进行搜索结果的整理和分析
在催收系统上实现自动导出客户数据、自动扣款、自动清除未读消息等操作 实现一键完成催收任务,一键导出所有结果和数据