熟练掌握java和python语言
熟练使用 Scrapy、Scrapy - Redis 等爬虫框架,精通 Requests、BeautifulSoup、lxml 等网络请求与数据解析库
熟练运用 Spring 全家桶(Spring Boot、Spring Cloud、Spring MVC 等)进行企业级应用开发,熟悉 Struts、Hibernate 等框架。
熟练掌握 MySQL、MongoDB 等数据库的使用,能够设计合理的数据库表结构,编写高效的 SQL 语句与 MongoDB 查询语句,实现数据的存储与读取。了解 Redis 在缓存和数据队列方面的应用。
项目:新闻资讯爬虫与舆情监测系统
项目描述:开发新闻资讯爬虫,实时抓取各大新闻网站的新闻内容,构建舆情监测系统,为公司公关部门提供舆情预警与分析服务。
工作职责:
运用 Scrapy - Redis 分布式爬虫框架,实现多台服务器协同工作,将新闻数据采集效率提升了10倍。
针对新闻网站的验证码反爬虫机制,采用机器学习方法,利用 TensorFlow 训练验证码识别模型,识别准确率达到70%,有效突破验证码限制。同时,结合打码平台备用,确保在复杂验证码场景下爬虫仍能稳定运行。
对采集到的新闻文本进行自然语言处理,使用 Jieba 分词工具进行分词,结合 TextBlob 进行情感分析,判断新闻的情感倾向(正面、负面、中性),为舆情监测提供量化指标。
将处理后的数据存储到 MongoDB 数据库,利用其灵活的文档存储结构适应新闻数据的多样性。搭建基于 Flask 的 Web 应用,为公关部门提供友好的舆情监测界面,方便其实时查看新闻动态与舆情分析结果。
运用 Scrapy - Redis 分布式爬虫框架,实现多台服务器协同工作,实现高速新闻数据采集工作。 针对新闻网站的验证码反爬虫机制,采用机器学习方法,利用 TensorFlow 训练验证码识别模型,识别准确率达到80%,有效突破验证码限制。同时,结合打码平台备用,确保在复杂
爬虫工程师: 深入分析各大音乐平台的网页结构与数据加载方式,利用 Scrapy 框架构建高效爬虫,每日稳定采集音乐数据,涵盖音乐名称、价格、销量、评论数等关键信息。 针对平台的反爬虫机制,综合运用 IP 代理池技术,维护一个包含多个可用代理 IP 的池,使代理 IP 有效率保