1. 精通Python编程,熟悉Python多线程、多进程开发,了解协程开发。
2. 精通爬虫开发流程,熟悉Scrapy爬虫框架,了解scrapy-redis分布式爬虫的开发部署。
3. 熟悉SQL语句编写、MySQL关系型数据库结构和操作、MongoDB、redis等数据库操作。
4. 熟悉HTML5、css、js技术和jQuery等web前端技术;了解Socket、TCP、UDP等python网络后端技术,熟悉Django和Tornado等web框架,了解模型视图和模板开发流程。
5. 熟悉Linux系统(Ubuntu)的使用及终端命令行的基本使用,熟悉window、linux下的开发环境。了解PySpark和Hadoop的基本原理及操作。
6. 了解决策树、朴素贝叶斯、SVM等机器学习算法,了解keras基本模型的搭建和训练。
2017-2019主要项目:基于scrapy-redis的分布式多站点体育数据爬虫项目、基于Django和余弦近似算法的敏感内容过滤API、基于Flask的服务器资源监控系统、基于Keras训练模型的自动评论机器人、爬虫框架scrapy的自动调度和异常监控扩展项目等,完整的功能模块和python包:imrepltool 图像水印去除工具、sxclzy 函数定时调度器、框架scrapy的自动调度和异常监控功能扩展版本scrapydartx等。
2019-2021主要项目: 利用图形数据库和采集的大量目标商贸网站数据形成数据链,实现多种方式的商品监控功能,从而为中小型贸易公司提供货品上架前期分析。高效率低消费的隧道代理:对于特定类型的网站,较目前普通代理有质的提升,同时代理支出较普通代理也是数量级的减少。
项目已开源:https://github.com/GuardianGH/imrepltool 识别特定的logo,并根据logo周围设定范围的像素计算logo区域的颜色值,实现自动渐变填充。若给定覆盖图像,则自动变换大小进行填充。为实现渐变填充的效果,自构思了一种十字交叉扩展边
项目已开源:https://github.com/ga1008/flow_operate 项目基于 pyautogui 开发,加入了图像匹配和颜色匹配功能,构造了使用鼠标键盘和屏幕进行自动流程操作的微平台
项目已开源:https://github.com/ga1008/flow_operate 项目基于 pyautogui 开发,加入了图像匹配和颜色匹配功能,构造了使用鼠标键盘和屏幕进行自动流程操作的微平台