1.熟练掌握Python编程基础和高级特性,包括面向对象编程、生成器、装饰器等。熟悉常用标准库及第三方库的使用。
2.爬虫开发: 熟悉爬虫原理,能够独立编写爬虫程序,具备数据抓取、解析和存储的能力。
3.Scrapy框架: 熟练使用Scrapy框架进行大规模爬虫项目的开发,掌握Spider编写、Item Pipeline处理、中间件使用等。
4.反反爬技术: 熟悉常见的反反爬策略,如设置代理IP、User-Agent伪装、Cookies处理、动态网页爬取等,能够应对大多数网站的反爬措施
5.前端开发: 熟悉HTML、CSS、JavaScript,能够使用jQuery.js或bs进行前端开发,具备一定的UI设计和用户体验优化能力。
数据库
6.MySQL: 熟练使用MySQL数据库,掌握SQL查询优化、事务处理、索引设计等技巧。熟悉MySQL的存储引擎(如InnoDB)及其优缺点。
7.网络编程: 熟悉TCP/IP协议,能够编写基于Socket的网络应用程序,理解HTTP/HTTPS协议,能够使用Requests库进行Web请求操作。
8.并发编程: 熟悉多线程、多进程编程,掌握线程锁、进程间通信等技术。
爬取过豆瓣电影250列表,新浪新闻的文章作者标签,政府最新新闻,验证码处理,多进程爬取lol皮肤,12306车票,js加密,AES解密等等
基于LOL网站,获取所有人物的每个皮肤数据,并采取多任务爬虫,使爬虫更加高效,最后每个人物都有自己单独的文件夹,总体保存在大文件夹当中
这个为用selenium写的12306抢票脚本,还可以自动登录注册,在开售之前会无限刷新界面,放票立马购买,并自动提交订单