精通 Python 和 java 开发语言,拥有多年的一线开发经验
了解主流的 WEB 服务器,对于 Nginx、Apache 的配置、优化、机制、维护有一定的经验
了解 Mysql 服务的使用,对于 Mysql 的优化、业务设计、集群配置、运维有多年的实践
主要使用 Flask、Codeigniter、CakePHP 等语言开发框架。
熟练使用 Redis、Memcached、MongoDB 等数据库。
1、淘宝和天猫的爬虫,可以根据搜索关键词,物品id来抓去页面的信息,数据存储在mongodb
2、中国知网爬虫。设置检索条件后,执行src/CnkiSpider.py抓取数据,抓取数据存储在/data目录下,每个数据文件的第一行为字段名称
3、新浪微博爬虫。主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录,可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。
爬取拼多多商品 通过遍历商品信息ID来获取商品的信息, 100000000~ 99999999999 然后使用多线程或多进程进行抓取
1、selenium登录163,读取未读邮件内容 2、切换到iframe表单,这是网易邮箱通用的一个框架 3、登录成功后获取cookie 4、获取邮件内容,退出浏览器