熟练python语言,具备扎实的代码能力
有良好的学习能力以及分析问题,解决问题的能力,主动性强
遇事沉着冷静,执行力强,时间管理能力强,善于利用资源,擅长团队合作,善于沟通,善于观察,信息检索能力强
精通网页抓取原理及技术,精通正则表达式,从结构化和非结构化的数据中获取信息
熟悉Mysql,有数据库调优和海量数据存储经验
熟悉常用爬虫框架,设计爬虫策略和防屏蔽规则,提升网页抓取的效率和质量
爬取淘宝,京东等平台信息
对指定的多个网站进行网页抓取、数据提取;破解反爬策略。
负责网页信息抽取、数据清洗、入库、服务化等研发和优化工作。
参与开发和设计分布式网络爬虫系统,进行多平台信息的抓取和分析工作。
研究优化爬虫算法,提升爬虫系统的稳定性、可扩展性。