爬虫工程师,基本熟练掌握python,Python编程基础,包括语法、数据类型、函数、模块、异常处理等。
网络基础知识,理解HTTP协议、TCP/IP协议、URL结构等。
爬虫框架和库,熟悉Scrapy、BeautifulSoup、Requests、Selenium、正则等。
熟悉mysql、mongodb等数据库
数据结构和算法,处理大规模数据和优化爬虫性能。
反爬虫策略应对,熟悉验证码、请求频率限制、动态加载等策略
利用多种方法爬取过猪八戒、中国研究生招生网,飞卢小说,优美图库,汽车之家,豆瓣,链家,熟练使用多进程以及多线更快爬取大数据内容
爬取研招网院校信息(院系,指导老师,考核内容等) -- 爬取指定专业(计算机与科学技术) -- 每页、每个院校所有数据 -- 字段:院系,指导老师,考核内容等 -- 保存为csv文件
爬取链家二手房板块信息 -- 爬取指定城市【北京】 -- 字段:房子名称+价格+详情链接+地址信息 -- 保存到mongodb