熟悉python基础语法及爬虫常用第三方模块,如selenium,requests,xpath,bs4等
熟悉scrapy爬虫框架及分布式爬虫
熟悉多线程/消息队列提升爬虫速度
能破解目前主流的反爬措施,如图片验证码/滑动验证码/点击文字验证码/前端字体加密等
曾经协助SEO工作,了解部分seo工作流程及相关爬取爬取流程经验,如各种平台文章采集,关键词采集等
熟悉flask,可通过flask快速搭建爬虫后台接口,接收可定制爬虫服务
熟悉mysql及redis/mongodb/es等非关系数据库使用
阿里巴巴国际站爬虫
SEO爬虫脚本定制
猫眼电影爬虫,文字加密
抖店网站爬虫,登陆验证码破解
大模型数据采集,政策\法规\新闻等模型原始数据采集
京东、阿里、苏宁商品信息数据采集
头条、抖音(抖店)、小红书、快手信息采集
其他爬虫:youtube/天眼查/企查查/360图书馆/谷歌/必应等等网站
爬虫采集工具,由本人独立完成 可根据用户使用情况灵活定制多种采集策略和储存方式 生成的桌面文件无任何经验者也可上手使用,傻瓜式操作 可实时显示采集信息,集成数十个爬虫,可多人同时使用,可设使用密码
福步论坛爬虫 破解登陆限制,多线程爬取论坛内所有帖子信息和用户信息 共计300W左右用户数据和3300W左右帖子数据
各电商平台,论坛,新闻网站均可,价格面议,5年以上爬虫数据抓取经验,精通python-scrapy框架及各主流数据库,精通各种验证码/加密等反爬措施,支持各种定制服务