1,熟练掌握Python的基本语法,拥有良好的编码规范
2,熟练使用requests、xpath、bs4与css选择器,re正则表达式对网页抓取
3,熟练使用Scrapy爬虫框架
4,熟练使用Selenium自动化爬取
5,熟悉网页语言HTML,拥有一定反爬经验积累,理解并熟练掌握各种反爬技巧(UA,IP代理,模拟登录,动态页面,验证码等)
6,熟悉使用MySQL、Redis、MongoDB数据库
7,熟练使用Fiddler抓包工具和中间人攻击以及Airtest自动化测试框架的使用
8,了解多线程,多进程,Scrapy-redis分布式组件
9,了解js加密解密,js逆向
医药信息获取
项目时间:
2021.10 – 2021.11
项目描述:
本项目抓取网站所有注册医生基本信息和所有医生名下问诊信息。
责任描述:
1、分析网站选择使用哪种技术,查看所取信息的层级,在简单使用requests请求 测试是否可行。
2、使用scrapy框架,用xpath,re正则表达式对页面提取数据,多层页面跳转对页面数据进行判断获取最终数据。
3、去重整理:拿到所有字段后对数据进行清洗,去重。
4、将清洗后的数据存入数据库。
爬取手机自媒体平台数据
项目时间:
2021.8 – 2021.9
项目描述:
爬取抖音、快手、小红书等app平台用户点赞数评论数转发数等信息
责任描述:
1、手机端的爬取不同于pc端,手机爬虫抓取使用fiddler抓包工具和手机模拟器来实现。
2、使用模拟器,来实现pc端模拟手机登录,使用fiddler或者mitmproxy进行app抓包,对取到的信息进行解析,得到传输的数据的api接口,对接收的数据进行分析。
3、将数据保存到数据库,对重复的字段对应的数据进行更新操作
新闻定时爬取
项目时间:
2021.4 – 2021.6
项目描述:
在指定多个媒体网站获取最近发布的新闻标题以及时间,将获取的标题进行对比,范围出现频率高的热词进行排序,分词。
责任描述:
1、爬虫模块的编写,使用requests进行爬取,多线程提高爬虫效率。
2、对爬虫进行维护,数据的去重,mysql储存。
3、定时调度更新数据。
招聘信息采集
项目时间:
2020.10 – 2021.1
项目描述:
对热门招聘网站进行信息采集,获取职位福利和薪资水平
责任描述:
1、使用requests请求获取网站网页,运用xpath和css获取网页数据
2、保持代码稳定运行,对于爬取过程中出现的问题要进行代码的不断优化等。
3、对获取到的数据进行数据库储存。