熟悉使用python浏览器爬虫pyppeteer selesium
曾为
1.中海油提供:百度资讯/新浪资讯/卓创资讯/财新网等新闻资讯 并且利用apscheduler定时提取多线程数据结束关闭浏览器,不占用服务器资源,
2.曾为江苏天马网络提供物流信息采集,利用pyppeteer将物流单号放到搜索框查询后获取数据。
利用pandas to_sql 爬取结果存储于mysql。
1,pyppeteer采用asyncio以达成高并发,异步请求。
2,通过timeout设置超时重发机制,防止因为网络卡顿导致页面抓取不到产生数据不全的现象。
3,通过pyppeteer浏览器爬虫可以操作页面表单/元素 登录成功后获取数据反爬概率就很低
4,使用xpath进行页面解析,解析出的数据通过PyMysql模块存储于mysql数据库中
个人博客 主要开发和维护者 记录平时工作时积累的问题和好的功能点 封装好的代码 记录日常生活等等 毕竟生活也是需要仪式
thinkphp5与公众号开发的微信投票系统 只能在微信浏览器运行,通过分享朋友圈,学员二维码集赞来进行排名 学员内部还可以机构举办的优惠课程进行抢购,支持微信在线支付,二维码转账等。 链接:请用微信打开(前台)