猿急送>

武汉Python兼职程序员

ID：298245

东方兄弟

python爬虫工程师

公司信息：
冰河网络科技

工作经验：
5年

兼职日薪：
500元/8小时

兼职时间：
可工作日驻场（自由职业原因）

所在区域：
武汉
全区

技术能力

1、参与分布式爬虫和数据采集系统的架构设计和开发；
2、负责反爬虫策略研究，代理IP、验证码识别等采集支撑服务建设；
3、负责大规模文本、图像数据的抓取、抽取，去重、分类，垃圾过滤，质量识别等工作；
4、负责公司爬虫的技术调研以及策略优化；
5、负责制定相关的反爬虫安全策略。

项目经验

负责根据需要爬取的数据进行需求分析，分析目标网站的网站结构和一些反爬手段；
负责通过requests、selenium、xpath等技术手段编写爬虫程序进行内容抓取，对抓取到的数据进行清洗过滤，分表存储，以供其他部门使用；
负责定期维护ip代理池，清除失效代理ip，根据爬取过程中遇到的一些反爬手段，优化自己的程序；
负责数据的去重，清洗，对于亚马逊ip反爬，检测验证码，制定具体应对措施。

案例展示

笔趣阁小说爬虫

爬虫程序能自动绕过网站的反爬策略，准确无误的爬取小说的每个章节，并清晰去除无关的字符，保持原有格式，并存储到本地文件夹，每个章节都会生成自己的标题，自动生成TXT文档供阅读
爬取电影网站电影信息

爬虫程序自动绕过网站反爬策略，准确提取所有页面的电影信息，并用xpath准确解析电影资料，去除无用的字符，并按原格式输出，并保存到本地文件夹。
爬取喜马拉雅小说网音频

爬取喜马拉雅小说网，荒村阴阳师音频，该网站有多重反爬策略，隐藏了真实的URL,构造URL就花了很长时间，后台数据通过ajax加载的，先构造每一集的url,然后通过遍历循环的requests方法，分别获取每一集的数据，并使用二进制方法存储到本地文件夹，从而得到MP3音频格式文件，