1.熟练使用Python编程语言,具有良好的编程规范;
2.掌握正则表达式、Xpath、CSS选择器等网页信息抽取技术;
3.掌握爬虫框架Scrapy,自动化爬取数据Selenium;
4.能独立解决模拟登录、封IP、验证码识别、图片识别等问题;
5.熟练使用多进程、多线程以及协程;
主要使用的技术栈:python、正则表达式、Xpath、CSS选择器、爬虫框架Scrapy、自动化爬取数据Selenium等技术获取信息
个人作品:《淘宝》、《亚马逊》、《e-Bay》、《小红书》、《快手短视频》等
项目名称:《携程》 项目描述:此项目是从携程网采集所有有关“温泉”为关键字的相关信息,采集的信息包含项目的名称、项目的价格以及项目的评分 技术栈:python+selenium+xpath 项目成果:生成一个以.csv为结尾的表格,具体请看作品图片
项目名称:《京东》 项目描述:该项目主要从京东网站采集所有热销书籍的相关信息,采集的信息包含项目的名称、项目的价格以及项目的评价人数 技术栈:python+selenium+xpath 项目成果:生成一个以.csv为结尾的表格,具体请看作品图片
项目名称:《动漫图片》 项目描述:该项目主要是从4k动漫图片网站上采集所有的动漫图片 技术栈:python+scrapy+xpath 项目成果:将图片存储在imgs文件下,具体请看作品图片
项目名称:《梨视频》 项目描述:该项目主要是从梨视频网站采集相关视频,然后存储到本地当中 技术栈:python+srcapy+xpath+re 项目成果:将视频内容存储到本地,具体请看作品图片