猿急送>

深圳其它兼职程序员

ID：178933

浪你个巴啦啦

爬虫工程师

公司信息：
深圳市三希软件科技有限公司

工作经验：
3年

兼职日薪：
500元/8小时

兼职时间：
下班后
周六
周日

所在区域：
深圳
南山

技术能力

Python/Scrapy/Requests/Urllib/Lxml 库/Css/Xpath/正则表达式/ 断点调试/JS 破解/JS 反混淆/网页渲染工具/UA/IP 限制/模拟登陆/验证码 Selenium/PhantomJS/Chrome Headless/分布式/多线程/多进程/并发爬虫国内网站爬虫/国外网站爬虫/APP 爬虫/小程序爬虫/数据去重/ OS/Mysql/Redis/Mongodb/Linux 等.

项目经验

项目描述 A (财经网站爬虫):

1. 数据类型-股票期货等;
2. 项目主要为客户提供金融数据实时接口，我负责对金融数据库提供数据库数据支持;
3. 负责爬取各类金融网站，按照字段要求对网站进行爬取，利用公司提供的爬虫架构部署爬虫和维护爬虫，对数据进行实时更新，数据去重入库;
4. 不断更新网站爬虫，应对突发情况，保证数据实时稳定准确。

完成情况:

1. 完成了指定网站的爬虫开发维护工作;
2. 对数据的去重优化和稳定提供了自己的优化意见，并得到项目主管的采纳和实施;
3. 解决了 ws 协议网站爬虫。

项目描述 B (创投新闻爬虫):

1. 为投资创业平台新闻快讯板块提供内容支撑,要求更新及时,内容专业有价值
2. 数据来自几十个财经投创新闻资讯网站或者平台,如界面网,要求按照标定的需求板块进行爬虫,并按照篇幅,新闻板块,和优先度进行分类存储.入库前要进行 url 去重和内容去重
3. 先爬取历史数据,完成后按网站更新速度按天,小时进行更新
4. 要求在 linux 环境下开发.

完成情况:

1. 利用 scrapy 框架写爬虫.每个网站一个 spider
2. 中间件来分类开启爬虫,url 去重
3. .前期用 redis 的 set 来去重,后来因为数据量越来越多,改用了布隆去重.并配合 NLP 接口管道来进行内容识别去重
4. 完成了项目需求,并在不断更新维护中
5. 在网站多而复杂的情况下,比较合理的完成了爬虫代码的开发,完成了项目需求

项目描述 C (新闻爬虫):

项目链接: https://github.com/lngbll/JOVI.git
1. 新闻媒体新闻资讯爬虫，为数据分析提供。为微信公众好，自媒体等客户提供选题，内容参考，原创性参考;
2. 主要内容是维护一个新闻资讯的数据库，并生成热度趋势，舆论走向等日，周，月报表。本人是数据爬虫，在各大新闻门户网站，热门 app 上爬取新闻数据，字段包括标题，正文，阅读量，作者，更新时间，评论等;
3. 利用 scrapy,xpath,负责新闻资讯的日常爬取，爬虫编写,爬虫进程维护，日志处理等;
4. 解决了亿级数据内容去重算法。并对数据库进行了优化处理。

完成情况:

1. 解决了亿级数据内容去重算法。并对数据库进行了优化处理;
2. 优化爬虫，让爬虫程序稳定运行，管理异常日志，并及时处理。