猿急送>

广州其它兼职程序员

ID：250132

Y

爬虫工程师

公司信息：
百仁科技有限公司

工作经验：
1年

兼职日薪：
1000元/8小时

兼职时间：
下班后
周六
周日

所在区域：
广州
天河

技术能力

掌握利用python的request库进行网页爬取，利用beautifulsoup/lxml解析网页源码，并提取所需数据等爬虫技术。
掌握利用scrapy框架构建分布式爬虫技术，掌握反爬技术，能够爬取AJAX，动态渲染的网页，并躲避大部分反爬机制。
掌握数据库交互技术，能够熟练操作MongoDB/Redis/MySQL数据库系统。
掌握数据清洗、数据分析技术，能够熟练地使用pandas、seaborn等库进行数据分析、数据可视化。

项目经验

1.基于scrapy框架构建爬虫项目，爬取摄图网（https://699pic.com/）插画类目下的所有图片，将图片保存至本地，并以图片所属类型命名图片。（共计14000张图片）

2.基于scrapy框架构建爬虫项目，爬虫起点中文网（https://www.qidian.com/）月票榜类目下的所有小说数据，提取小说名、作者、书籍类型、连载状态四个字段，并将这些数据保存至MongoDB数据库中。

3.基于scrapy框架构建爬虫项目，爬取知乎热搜榜单（https://www.zhihu.com/billboard），爬取热搜新闻标题、搜索量、新闻简介这三个字段，将爬取的数据保存至Redis数据库中，最后进行数据清洗，数据分析。

案例展示

摄图网图片爬取

摄图网（https://699pic.com)是一个提供免费正版高清图片素材的网站，网站保护多个图片素材板块，本项目的任务是获取摄图网插画板块下的所有图片素材，以用于自媒体平台的文案插图。本项目是基于scrapy框架搭建的爬虫项目，同时获取图片两个不同尺寸的缩略图。
起点中文网小说数据爬取

本项目任务为爬取起点小说网（https://www.qidian.com/rank/yuepiao/）中月票榜类目下的所有小说信息，爬取字段包括书名，作者，小说类型，更新状态；将爬取到的数据保存至MongoDB。