宇空星雨的案例列表

对人人网、百合网、世纪佳缘、微博等社交类网站的用户数据进行采集，主要使用的是requests并结合多线程进行爬取，数据量累计约6000万。技术描述：1.通过一个用户的数据，获取与之相关联的其他用户的数据； 2.通过UA池，模拟成不同的浏览器，获取用户数据，通过封装IP代理池并维护，在出现IP封禁的情况下使用可用IP进行爬取； 3.在出现强制输入验证码的反爬时，常通过打码平台（超级鹰）进行破解； 4.爬取到的数据存储在MySQL中。...

政府网站数据爬取

电子商务-B2B 宇空星雨

对智联、58、51、大街网、万行教师、中国商标网、BOSS直聘、招聘狗等各大招聘网站和企业数据网站进行个人简历与企业数据的爬取，爬取数据量约14亿，并对部分数据做清洗,生成报表。技术描述：1.使用Scrapy框架进行数据的爬取； 2.参与分布式爬虫框架设计，搭建Scrapy_Redis提高爬取的效率； 3.对部分网站仍采用了Requests进行爬取，后基于aiohttp做了异步爬虫框架的封装，提高爬取效率； 4.中国商标网企业数据爬取遇到JS加密的反爬，通过不断分析网站，以数据为导向，最终找到绕过JS加密反爬手段的接口，获取到需要的数据； 5.大街网会动态更换登录的cookie信息...

爬取各类网站

电子商务-B2B 宇空星雨

使用Redis记录用户日志，并转存到HBase中； 2.通过装饰器布置UA检测和用户行为检测（使用Redis存储IP封禁状态）； 3.使用pywin32清洗Word离线数据（约25GB），使用pandas清洗Excel离线数据（约10GB），分析获取数据做进一步使用； 4.使用Hive做用户日志清洗，使用sqoop将清洗数据转存到MySQL中，使用pyecharts做PV，UV，运营指标的展示，并对日志做关联性分析； 5.使用用户简历及日志数据，对用户做分类； 6.使用协同过滤算法（基于岗位）推荐公司招聘信息给用户。...

------ 加载完毕 ------

宇空星雨的案例列表

宇空星雨

 社交类网站用户数据采集

政府网站数据爬取

爬取各类网站