1. 基础扎实 ,有良好的编码习惯及编码风格 ,并且能阅读官方文档
2. 熟练使用 urllib、Requests 等模块,了解网站反爬取机制、js 加密、js 代码混淆3. 熟练使用 Scrapy 、pyspider 框架以及编写各类中间件
4. 熟练使用 Selenium 实现动态 HTML 抓取
5. 熟练使用 MySQL ,了解 Redis、MonggoDB ,能进行增删改查
6. 熟练掌握分布式框架 ,了解各组件工作机制、熟悉多线程和多进程
7. 熟练使用实在智能RPA,影刀RPA,艺赛旗RPA
8. 熟悉使用 Django 框架、了解 Flask 框架
9. 熟悉使用 Xpth、 BeautifulSoup、re、json 模块进行数据爬取
10. 熟悉 linux 了解其常用命令行的使用
11. 熟悉 html 语言的基础语法 ,熟悉 js、了解 C++的基础语法
12. 熟悉Appium 对手机app 的爬取
13. 能够操作 Excel 进行数据分析,能够使用 pandas 进行数据清理和转换
14. 熟悉使用 jupyter 中的matplotlib.pyplot 进行数据可视化
15. 熟悉使用 Airtese 对 web 进行测试
16. 熟悉使用 curl 对指定 URL 来上传或下载数据 ,并将数据展示出来
项目简介:
电商平台数据爬取,淘宝指定类目每月top300店铺爬取,各大电商平台数据使用RPA结合Python进行数据获取,并上传数据库。
项目技术栈:selenium+js RPA websocket pandas
个人职责:
1. 淘宝每月TOP300店铺商品详情数据获取
2. 使用实在智能RPA或者影刀进行数据进行电商各大平台指定数据获取
3. 进行数据处理,整理入库
4. 使用RPA结合Python进行数据银行,策略中心人群包数据获取
项目描述 :
东森网、虎嗅网等主要门户网站 大众日报、人民日报等网站信息爬取使用 scrapy 框架进行爬取增加过滤器,采用分布式 服务器爬取
项目由三大部分组成 :
一缓存 ,读取多来源 xpath 信息进 redis ,
二下载 ,redis 信息读取 ,布隆过滤 ,运行爬虫 ,依据去重的断点进行自动选择爬取三分析,爬取数据的进行,敏感词过 滤 ,生成关键词 ,摘要 ,缩略图等 ,
存入 MongoDB数据库 ,并根据条件入不同文章库
涉及反反爬虫机制 ,设置 User-Agent ,Cookie ,设置延时 ,使用代理 IP
图片使用 scrapy 框架自带的模块进行下载 ,缩略图处理
不同来源相同文章 ,无图文章的过滤最终保存在 MySQL 关系型数据库中 ,设置多字段,易于查询和管理。项目职责:建立每个来源的 Xpath 信息 ,包含新闻列表以及正文的十余项内容针对内容有无翻页,分析网页静动态,get请求,post 请求
使用 Requests ,Xpath ,re 等模块进行网页文字内容和链接网址解析和提取确定不同频道的新闻展示方法,比如长新 闻 ,大图模式 ,一图模式 ,图集模式设置 不同类型的字段 ,进行代码编写
对于竞品内容信息以及其他不需要的内容进行区别过滤 根据日志信息 ,查找来源网站的不同错误信息,比如各项字段没有取到 ,停爬 ,无图 ,无更新等不同异常 ,对其进行测试修正 对于测试无误的来源代码,推送服务器进 行线上运行入库量异常的处理
电商平台数据爬取,淘宝指定类目每月top300店铺爬取,各大电商平台数据使用RPA结合Python进行数据获取,并上传数据库。 项目技术栈:selenium+js RPA websocket pandas 个人职责: 1. 淘宝每月TOP300店铺商品详情数据获取 2.
项目描述 : 东森网、虎嗅网等主要门户网站 大众日报、人民日报等网站信息爬取使用 scrapy 框架进行爬取增加过滤器,采用分布式 服务器爬取 项目由三大部分组成 : 一缓存 ,读取多来源 xpath 信息进 redis , 二下载 ,redis 信息读取 ,布隆过滤 ,