猿急送>

杭州其它兼职程序员

ID：275713

H

爬虫工程师

公司信息：
郑州塔博科技

工作经验：
2年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日
可工作日远程

所在区域：
杭州
滨江

技术能力

1，熟练掌握Python的基本语法，拥有良好的编码规范
2，熟练使用requests、xpath、bs4与css选择器，re正则表达式对网页抓取
3，熟练使用Scrapy爬虫框架
4，熟练使用Selenium自动化爬取
5，熟悉网页语言HTML，拥有一定反爬经验积累，理解并熟练掌握各种反爬技巧（UA，IP代理，模拟登录，动态页面，验证码等）
6，熟悉使用MySQL、Redis、MongoDB数据库
7，熟练使用Fiddler抓包工具和中间人攻击以及Airtest自动化测试框架的使用
8，了解多线程，多进程，Scrapy-redis分布式组件
9，了解js加密解密，js逆向

项目经验

医药信息获取

项目时间：
2021.10 – 2021.11

项目描述：
本项目抓取网站所有注册医生基本信息和所有医生名下问诊信息。

责任描述：
1、分析网站选择使用哪种技术，查看所取信息的层级，在简单使用requests请求测试是否可行。
2、使用scrapy框架，用xpath，re正则表达式对页面提取数据，多层页面跳转对页面数据进行判断获取最终数据。
3、去重整理：拿到所有字段后对数据进行清洗，去重。
4、将清洗后的数据存入数据库。

爬取手机自媒体平台数据

项目时间：
2021.8 – 2021.9

项目描述：
爬取抖音、快手、小红书等app平台用户点赞数评论数转发数等信息

责任描述：
1、手机端的爬取不同于pc端，手机爬虫抓取使用fiddler抓包工具和手机模拟器来实现。
2、使用模拟器，来实现pc端模拟手机登录，使用fiddler或者mitmproxy进行app抓包，对取到的信息进行解析，得到传输的数据的api接口，对接收的数据进行分析。
3、将数据保存到数据库，对重复的字段对应的数据进行更新操作

新闻定时爬取

项目时间：
2021.4 – 2021.6

项目描述：
在指定多个媒体网站获取最近发布的新闻标题以及时间，将获取的标题进行对比，范围出现频率高的热词进行排序，分词。

责任描述：
1、爬虫模块的编写，使用requests进行爬取，多线程提高爬虫效率。
2、对爬虫进行维护，数据的去重，mysql储存。
3、定时调度更新数据。

招聘信息采集

项目时间：
2020.10 – 2021.1

项目描述：
对热门招聘网站进行信息采集，获取职位福利和薪资水平

责任描述：
1、使用requests请求获取网站网页，运用xpath和css获取网页数据
2、保持代码稳定运行,对于爬取过程中出现的问题要进行代码的不断优化等。
3、对获取到的数据进行数据库储存。