计算机语言:python(熟悉多线程、多进程、协程的使用,有Java语言基础,具备良好的编程风格和习惯),c#,go,Tensorflow
数据采集:python爬虫熟练使用Scrapy(requests、Selenium、re、xpath、css、urllib、bs4进行网页请求和数据提取)
数据处理:数据清洗,数据分析python库:Numpy,Pandas,matplotlib等...
机器学习:常见的机器学校算法,(LR、NB、RF、SVM、K-MEANS、PCA)
数据库:Mysql,Mongodb,Redis的基本操作
项目简介:好好租项目是一个前后端分离的项目。前端使用VUE框架,后端采用Django框架,项目主要是帮助公寓主 发布租赁信息,方便找房用户寻找合适房源
项目职责:
1:项目使用Django框架,进行用户的注册,登录,手机号认证,用户中心以及找回密码的接口开发
2:项目使用Mysql数据库存储数据,同时搭建Mysql主从防止宕机,进行数据备份
3:使用Redis的缓存淘汰策略实现租房热搜排行
4:使用celery异步任务技术以及容联云通讯发送注册短信验证码5:使用session用户认证和状态保持
信用评分模型
1.数据预处理,包括数据清洗、缺失值处理、异常值处理。
2.探索性数据分析,使用直方图、箱形图获取样本分布的大概情况,为进一步的操作
打基础。
3.变量选择,筛选出对违约状态影响最显著的指标,主要有单变量特征选择方法和基
于机器学习模型的方法 。
4.模型开发,该步骤主要包括变量分段、变量的 WOE(证据权重)变换和逻辑回归
估算三部分。
5.模型评估,该步骤主要是评估模型的区分能力、预测能力、稳定性。
6.使用 Logistic 模型跑数据,并对生成的模型进行评估。
7.运用 ROC 曲线评估,结果的 AUC 值符合要求。
1.数据采集阶段-b站发现爬虫采集会封IP 使用代理IP 用时大概一周获取1500万数据 2.数据库sqlite3 3.启动run(URL+[i for i in range(1,1997*10000)]) 开启延迟避免封IP,判断code!=0 获取aid(视频编号),v
1、Scrapy+redis+mongodb+selenium等(一天大概1300万条数据) 2、下载中间件会从Cookie池和User-Agent池中随机抽取一个加入到spider中 3、start_requests 中根据用户ID启动四个Request,同时对个人信息、微