熟悉windows,linux操作环境,能够独立完成开发工作。
遵循PEP8风格,熟练运用Python3进行开发。
掌握常见的爬虫、反爬虫知识及应对措施。
了解Re,Xpath,Json用法,能够使用Selenium + PhantomJs实现动态请求分析抓取。
了解Tesseract机器图像识别系统,并处理简单的文字验证码。
了解MySQL,Redis,MongoDB相关操作。
熟悉分布式管理控制系统Git,文档工具Markdown。
了解Html,Javascript(jQuery),CSS;了解AJAX交互式用法。
能够使用numpy,matplotlib,pandas进行数据分析。
熟悉面向对象思想,了解计算机基础、数据结构和算法。
掌握基本的机器学习算法,能够进行数据的挖掘工作。
1、爬虫以及数据分析、可视化。使用requests爬取一定时间范围内猫眼电影相关数据,借助pandas、numpy进行处理和进一步分析,将结果以json形式存储到本地,通过开源第三方库echart等进行可视化展示。其中重点在于网站的反爬处理上,通过伪装申请、换ip、ajax分析等操作拿到了真实数据。
2、办公自动化脚本编写。使用python相关第三方库,如pyautogui、selenium等完成对普通软件、浏览器的常规流程进行自动化处理,可以在前台工作也可以在后台自动完成。
3、情感分类算法实践。通过爬虫获取目标数据,进行清洗和处理后借助机器学习和深度学习算法建立情感分类模型,得到针对该数据的实用情感分类模型。
爬虫以及数据分析、可视化。使用requests爬取一定时间范围内猫眼电影相关数据,借助pandas、numpy进行处理和进一步分析,将结果以json形式存储到本地,通过开源第三方库等进行可视化展示。其中重点在于网站的反爬处理和数据可视化展示上,通过伪装申请、换ip、ajax分析等
针对具体的事件,爬取微博上关于该事件在一定范围内讨论的相关数据,数据清洗后进行简要分析和可视化展示,针对数据特征建立以BiLSTM为核心的神经网络模型,用以对数据的情感属性进行分类。