熟练掌握Scrapy、Selenium、 Django、Flask等Python框架
熟悉MySQL、Mongo数据库以及SQL Server
精通C++,熟练使用多线程、多CPU内核,消息队列、异步通信、进程间通信、应用层安全协议开发等
熟悉svn, git等项目管理工具
具有丰富的爬虫和反爬虫经验
熟悉tcp/ip,http,ftp,snmp,webservice(axis1/2,cxf),tl1等网络传输协议
熟悉多线程编程,精通网络编程,熟悉redis等缓存技术
熟练操作linux,unix等操作系统配置及命令,能熟练配置部署tomcat,mysql,snmp,redis等
熟悉OpenCV及其常用图像处理操作,掌握Matlab
熟悉边缘检测、区域提取、低通滤波、二值化、对比度增强等常用图像处理算法
了解基础机器学习算法以及实现,熟悉Tensorflow,了解以及使用ConvNet实现基础数据集训练
使用Flask搭建和维护后台服务,分布式爬取知乎,豆瓣,微博,淘宝、CSDN、bilibili、政府网站等,精通大数据分析,以及机器学习,做过人脸识别、车牌识别、垃圾分类等项目。
获取排行榜各榜单中的所有信息以及相对应的用户信息,获取用户的基本信息,粉丝数量、关注数量,将用户的所有视频信息保存下来
爬取图虫网站中用户的所有上传图片,包括需要付费的图片,只需要添加用户名称即可。 url = 'https://tuchong.com/rest/tags/人像/posts?' data = { 'page': str(i), 'count': '20',