1、精通python,并熟练运用scrapy框架进行数据获取及后续数据的预处理
2、熟练运用SQL进行数据后续加工处理
3、能够利用pytorch深度学习框架进行图片验证码模型的训练
4、熟练运用shell编写linux日常维护的脚本
5、熟悉帆软的report报表制作工具
6、熟悉Linux操作系统、常规管理,常用命令
7、熟悉关系型mysql、非关系型型数据库redis,mongo数据常用CRUD操作
1、某行业考核系统,在此项目主要负责从特定网站利用scrapy每日定时抓取对应数据(100万左右),并对数据清洗噪音数据,然后写入对应的数据库
2、利用python处理各种各样的excel手工文件,并对数据进行预处理然后写入对应数据库
3、利用python进行hive数据的抽取
4、自动获取系统日志,监控系统运行
角色:利用python爬虫框架scrapy对特定网站获取指定数据(某些网站需要模拟登录,并利用深度学习进行验证码识别), 利用pandas等常用库对excel文件处理
角色:利用python爬虫框架scrapy对特定网站获取指定数据(某些网站需要模拟登录,并利用深度学习进行验证码识别), 利用pandas等常用库对excel文件处理