从事软件行业5年,精通web前端开发,C,Java,Python以及h5等语言,ps等工具,擅长数据采集与挖掘,精通各大网站爬虫程序设计开发,能够设计小而精确到企业级大规模的多线程爬虫,擅长使用bs到scrapy等各种爬虫库。深耕爬虫领域,除了基础的技能外还掌握APP逆向等较困难的方法。熟练掌握mysql开发,入库操作。
完全自行设计专利查询爬虫系统,并且成功获取到从名称摘要到法律状态类别等等十几个字段,使用了代理池以及多线程等方式,满足了大规模的需求。
收集公开的企业信息,从黄页上完整地获取了名称地址联系方式法人等等字段,收集了几百万条。
设计采集电商网页数据的程序,x猫x东等,并进行可视化分析。
为了收集指定关键字的专利数据并进行统计分析,我通过Python编写了用于爬取专利信息的程序,并将信息汇总导入到Excel中。 作品详细功能:按照字段展示爬取的数据。 该作品的需求,功能设计与实现均由我负责。
为了获取天猫商品评论并进行进一步分析,需要设定一个方案抓取数据,我采用了多线程+代理池+插件方式获取数据,完美解决了反爬机制的困难。 详细功能:展示获取到的评论数据(Excel形式) 项目需求及功能设计与实现由我负责。
Kaggle竞赛里面中“泰坦尼克号预测生还”是一个进行Pandas数据分析非常好的案例,我在此项目中通过导入训练数据进行初步数据分析以便用于后续的人工智能训练。 目前主要想了解的有:不同性别、舱位和年龄的分布情况,不同性别、舱位和登录港口的获救比例比较,找到生还比例更高的特征。
Kaggle竞赛里面中“泰坦尼克号预测生还”是一个进行Pandas数据分析非常好的案例,我在此项目中通过导入训练数据进行初步数据分析以便用于后续的人工智能训练。 目前主要想了解的有:不同性别、舱位和年龄的分布情况,不同性别、舱位和登录港口的获救比例比较,找到生还比例更高的特征。
企业信用信息在当今社会无论是对于企业自身主动获取信用报告进行分析,还是用于查询后提供给合作对方以作为信用凭证等,都具有极大的价值。因此,我设计这一程序尝试去收集企业信用数据。我选择采集国家公开信用公示数据,困难极大,通过了破解js,以及利用第三方接口识别验证码等方式,编写了很复杂