为了获取天猫商品评论并进行进一步分析,需要设定一个方案抓取数据,我采用了多线程+代理池+插件方式获取数据,完美解决了反爬机制的困难。 详细功能:展示获取到的评论数据(Excel形式) 项目需求及功能设计与实现由我负责。...
Kaggle竞赛里面中“泰坦尼克号预测生还”是一个进行Pandas数据分析非常好的案例,我在此项目中通过导入训练数据进行初步数据分析以便用于后续的人工智能训练。 目前主要想了解的有:不同性别、舱位和年龄的分布情况,不同性别、舱位和登录港口的获救比例比较,找到生还比例更高的特征。主要任务分为数据清洗,数据规整,数据可视化。 1.将无关数据项,比如ticket船票信息等删除,age年龄字段有缺值,通过填充处理。 2.将性别,港口名称等字段转化为数值,便于可视化显示。 3.数据可视化制表,展示数据,观察并总结特征。...
Kaggle竞赛里面中“泰坦尼克号预测生还”是一个进行Pandas数据分析非常好的案例,我在此项目中通过导入训练数据进行初步数据分析以便用于后续的人工智能训练。 目前主要想了解的有:不同性别、舱位和年龄的分布情况,不同性别、舱位和登录港口的获救比例比较,找到生还比例更高的特征。主要任务分为数据清洗,数据规整,数据可视化。 1.将无关数据项,比如ticket船票信息等删除,age年龄字段有缺值,通过填充处理。 2.将性别,港口名称等字段转化为数值,便于可视化显示。 3.数据可视化制表,展示数据,观察并总结特征。...
企业信用信息在当今社会无论是对于企业自身主动获取信用报告进行分析,还是用于查询后提供给合作对方以作为信用凭证等,都具有极大的价值。因此,我设计这一程序尝试去收集企业信用数据。我选择采集国家公开信用公示数据,困难极大,通过了破解js,以及利用第三方接口识别验证码等方式,编写了很复杂的Python程序,最后成功收集到数据。...