请求发送与响应处理:使用Requests库进行HTTP请求的发送和响应的处理,是网络爬虫的重要工具。同时,支持设置请求头、Cookies、代理等
页面解析:利用BeautifulSoup库来解析HTML代码,提取所需的数据。此外,XPath和正则表达式也是常用的页面解析方法
数据存储:数据抓取后需要存储起来,常用的数据库有MongoDB、Redis等。
反爬虫应对策略:随着网站的安全性提高,越来越多的网站采取了反爬虫措施。因此,学习如何规避这些反爬虫机制变得尤为重要
动态网页处理:对于动态生成的网页,可以使用Selenium模拟浏览器行为进行数据抓取。
爬虫框架:除了基础的Requests和BeautifulSoup外,还有多种成熟的爬虫框架可供选择,如Scrapy、PySpider等。这些框架提供了丰富的功能和灵活的扩展性,使得爬取网页数据变得简单高效。
高级技巧:包括多线程
中铁股份相关项目
2022-10-23 ~ 2023-1-1
中国中铁股份有限公司
爬虫开发工程师
在授信流程中,用户授权提供各大电商平台的账号信息,爬虫通过
代码模拟登陆用户账号,爬取账号下的信息包括:用户基本信息、
银行卡信息、历史订单信息、物流信息、商品信息、团购信息、积
分信息等,保存 MongoDB,然后根据具体需求进行数据清洗保
存 MySQL,提供给风控后台进行风险管控,最终完成授信提供用
户相应的消费额度。
构建爬虫框架:编写爬虫基类,实现获取代理、爬取、数据保存入
库、异常处理、重爬等逻辑,不同平台继承基类实现统一调度
搭建 Django 爬虫管理平台:对各个电商网站数据爬取情况分站点展示,按照 session 对每个爬虫请求进行管理,提供测试功能通过
页面展示的登陆表单填写账号密码等信息点击登陆触发爬虫进行测试;提供查询功能查看每个 session 的爬取请求和最终爬取数据;
提供重爬功能支持页面点击手动重爬;提供统计功能可以按照日期和各种爬取状态为维度统计爬取数量和爬取成功率。
搭建 Django 验证码识别平台:对于需要验证码识别的网站,收集样本并进行标注,通过深度学习 CNN 等算法进行模型训练,然后
将训练好的模型放到 Django 项目中,提供接口给爬虫平台调用
华夏幸福基业相关项目
华夏幸福基业股份有限公司
2022-2-1 ~ 2023-8-8
爬虫开发工程师
根据公司的业务需求,对网络上各个平台的金融数据,股票信息,进行爬取,为公司提供大量有效数据,进行数据分析,技术支持。
使用技术:Python,NumPy,Pandas, threading,gevent,requests
技术要点:
使用 Python 第三方库 requests 爬取页面。
模拟各种浏览器去拿到页面信息 html。
启用多线程,协程并发抓取网页信息,提高爬取的效率
数据分析通过图形、图像和动画等视觉元素,将枯燥的数字和信息变得生动有趣,帮助人们更好地理解和发现数据背后的规律和趋势,运用python爬取数据并进行数据分析可视化
Python爬虫火车登入个人信息,主要功能 模拟登录:通过模拟登录的方式,获取网站的登录凭证(如cookies或token),以便后续访问需要登录才能查看的页面。个人信息查询:在成功登录后,可以获取用户的个人信息,如姓名、身份证号、联系方式等。 订单查询:查询用户的火