熟悉python基础和爬虫相关理论。
精通使用正则表达式进行复杂数据提取与清洗,能高效地从文本中匹配、提取特定模式信息。熟练运用BeautifulSoup库进行HTML文档解析,擅长构建复杂的查询语句以提取所需网页元素,具备处理动态加载内容的能力。精通XPath语法与CSS选择器,能灵活运用这两种方式定位并抽取网页中任何层级的结构化数据,适应各类网页布局与结构。会处理网站图片验证码。具备基础的JavaScript逆向工程能力,能理解并分析网页前端逻辑,解密动态加载数据、处理异步请求,有效应对基于JS渲染的动态网页爬取。理解常见反爬机制,熟练运用代理IP轮换、模拟浏览器行为、设置合理的爬取频率等手段规避封锁,确保爬虫项目的合规、稳定运行。
有数十个网站的爬取经验,爬取过京东淘宝店铺,腾讯,网易新闻网站,微博评论,租房信息,豆瓣书单,王者官网所有英雄皮肤数据以及多个网站的文章数据
向网站发起请求后分析响应数据,分析出数据分布结构后使用css选择器提取标题链接数据并保存为csv文件
向网站发起请求,通过响应数据分析主页与详情页关系后循环发起请求取得数据,分析出详情页数据后使用xpath获取数据,最终将取得的对应图片保存为二进制数据写入文件并保存