熟悉Linux,windows操作系统,能熟练的在Linux,windows下完成开发;
熟练掌握python基础语法,具备良好的面向对象编程思想,有良好的PEP8编码习惯;
熟练掌握Scrapy、scrapy-redis分布式框架,了解各组件工作机制
熟练使用urllib、urllib2、requests等工具模块,熟练lxml、re、json、BeautifulSoup等数据解析模块
熟练使用Selenium+PhantomJS实施动态HTML抓取;
了解Tesseract机器图像识别系统,能处理简单的文字验证码;
熟悉css,js,html,熟悉AJAX,jQuery技术;了解Bootstrap框架能实现简单页面的开发;
熟练使用Mysql、MongoDB、Redis数据库,了解关系型数据库的优化;
熟悉django框架,有django开发经验,熟悉 shell脚本编程;
可使用numpy、pandas库能做简单数据处理;
可以使用git协同开发以及Ngiax使用和项目部署过程;
e聊转;
负责公司信息数据抓取、处理、提供相关信息
抓取以scrapy框架为主,ip代理、验证码、中间件等都熟练使用;处理从mongo转存mysql;最终提供精准的excel数据表
app使用情况分析;
对日常情况汇总,app内部模块使用频率,error情况分析,并图表展示
中文集团
针对数据抓取、Tesseract、TensorFlow等研究应用