1. 具有良好的 Python 代码编码规范。能够灵活运用 Python 的各种库。
2. 熟练使用 requests、 lxml 库和 scrapy 框架。
3. 熟练使用xpath和正则表达式进行网页数据抓取。
4. 熟练使用自动化测试工具(Selenium)
5. 熟悉 JS 逆向
6. 熟悉MySQL、MongoDB和Redis数据库
7. 熟知一般的反爬机制和应对方法
8.了解手机app爬虫,掌握fiddler抓包工具、Mitmproxy中间人攻击工具以及Airtest自动化测试工具
9.了解使用多线程,多进程优化爬虫速度
项目名称: 电商智选平台 2024.04-2024.08
项目描述:
这是将部分电商平台商品数据汇聚到一起进行展示平台,该平台可以为购买者提供更为详细的商品价格和客观的商品评价,帮助客户更好的选择商品。
责任描述:
1.将唯品会,京东等国内电商平台的商品信息抓取下来作比较。
2.处理代码运行中遇到的反爬措施和 JS 加密数据
3.利用 Scrapy 框架优化爬取效率
4.通过redis进行存储
5.对redis里面数据进行清洗和格式化处理,确保数据的准确性和一致性。
6.将抓取到的数据存储到MySQL,为后续的展示做铺垫
7.对数据库数据进行可视化操作
项目名称: 职汇通 2023.12-2024.04
项目描述:
汇总了热门招聘平台发布的岗位信息,能够让应聘者更加清晰地了解公司职位需求和招聘条件,从而避免投递不符合自身条件的简历。这样可以节省应聘者的时间和精力。
责任描述:
1.将BOSS直聘、51job、前程无忧等网站的岗位信息抓取下来
2.处理招聘平台的反爬机制,确保抓取信息的准确性和完整性;
3.逐层分解,按经验、学历、地区获取所有招聘信息;
4.将数据进行清洗和格式化
5.使用 MySQL 数据库保存爬取数据,并进行去重 ;
处理代码运行中遇到的反爬措施和 JS 加密数据,利用 Scrapy 框架优化爬取效率,通过redis进行存储,对redis里面数据进行清洗和格式化处理,确保数据的准确性和一致性。,将抓取到的数据存储到MySQL,为后续的展示做铺垫,对数据库数据进行可视化操作
1.将稀牛数据抓取 2.处理代码运行中遇到的反爬措施和 JS 加密数据 3.利用 Scrapy 框架优化爬取效率 4.通过redis进行存储 5.对redis里面数据进行清洗和格式化处理,确保数据的准确性和一致性。 6.将抓取到的数据存储到MySQL,为后续的展示做铺垫