1.构建企业内部舆情风险监控模型,熟悉常见的反爬措施,多线程爬取数据后进行清洗入库;开发基于pyspider等爬虫框架的爬虫程序,通过selenium库编写自动化web页面测试。
2.后端:django、flask、php
3.前端html/css/js
4.ai模型构建与训练
1.构建企业内部舆情风险监控模型,熟悉常见的反爬措施,多线程爬取数据后进行清洗入库;开发基于pyspider等爬虫框架的爬虫程序,通过selenium库编写自动化web页面测试。
2.使用Python的Django框架开发一个电商网站(UWSGI+NGINX+FDFS+DJANGO),使用MVT(MVC)设计模式,设计网站功能分为四大模块:用户模块、商品模块、购物车模块、订单模块,用户模块结合celery实现异步发送邮件注册功能,以及登录,账户激活、账户退出等功能;商品模块:商品图片存储修改了Django默认的存储方式,采用fastDFS分布式图片存储服务;通过celery实现页面静态化并配置nginx提交静态页面,以及使用缓存对网站性能进行优化,用haystack+whoosh实现关键词搜索商品;在支付宝的沙箱环境模拟支付的使用流程;订单模块:提交所选商品信息,请求支付、查询支付结果以及商品评论功能。部署uwsgi作为项目服务器,使用nginx配置upstream实现负载均衡。
3.使用深度学习网络构建以及卷积神经网络的架构(Xception、Resnet等)迁移学习以及循环神经网络(LSTM、GRU)建模,对强干扰验证码图片的字符进行识别,取得较好的识别率,并在web提供验证码识别api接口调用,在服务端接收到上传验证码图片后,返回识别好的字符。
滑动拖动验证码100%识别,使用到了opencv找到图片缺口位置,并模拟拖动;复杂验证码识别,使用深度学习进行模型训练,正确率达95%以上。
使用python flask后台构建的后台系统,前后分离,结合前端展现移动端的设计页面。模块功能丰富,代码精简。