1.熟练使用re,xpath,beautifulsoup这些工具匹配元素
2.精通队列,多进程,多线程来提高抓取效率
3.精通scrapy框架进行抓取
4.熟悉numpy,panads模块进行数据分析
5.能够应对各种反爬策略并进行解决这些问题
您好,我在公司担任爬虫工程师的角色,目前我们做的项目是一款针对于区块链的app开发,我在项目中主要负责抓取app中所需要的数据,比如资讯数据,快讯数据,微博推特数据,还有针对于数字货币的实时数据,整个项目需要用到的技术点有队列,多进程,多线程来提升抓取效率,xpath,beautifulsoup,re这些匹配工具,还有维护ip池来进行程序稳定抓取。