本人熟练掌握python,hadoop集群技术,熟悉sql语句,接触过的数据库有mysql,oracle,reids,SQLserver,hive,也精通Linux操作系统的命令操作,了解nginx,tomcat服务器,api接口,帆软报表
自己实习期间写过一个图书馆的在线管理系统,采用的时三层架构的思想,运用到的技术有python,sql,数据来源于MySQL数据库,使用flask,pymysql,将数据库,后端,前端结合起来,达到在前端页面能够增删改查数据,还是用了echarts达到一个数据展示的效果。
还弄过一个景区客流数据采集建设项目,主要是为了提升旅游体验,实现智慧旅游,采用的技术有安装CDH平台,部署Hadoop相关组件,定期监控管理维护,使用redis,mysql,第三方服务调用api提供服务。
这个项目当时是分为四层架构,分别是ODS数据贴源层,DW数据处理层,DM指标层,ADS数据应用层。ODS层是将上游系统的数据抽取到hive数仓,DW层对抽取到的数据进行数据处理,如码值替换,空值替换,脱敏处理,DM层根据不同的主题加工不同方向的宽表,ADS层用于数据支持,将整理好
开发一个完整的小说数据平台,涵盖数据抓取、清洗、存储与Web展示的全流程。项目中使用Requests库从多个小说网站抓取数据,包括小说名称、作者、章节内容等,并通过自定义的爬虫策略应对网站反爬机制。抓取的数据经过Pandas进行清洗和格式化处理,确保内容的完整性与一致性。处理后的