针对公司现有Sql数据库进行日常维护,使用Python编写自动化爬虫,有针对性的进行数据采集和处理,多线程运行,高性能异步IO,分布式等可以熟练操作,为公司获取相对应的联系人联系方式需求信息,对于python的经验和理解相对深刻
美团信息爬取,针对大药房爬取相对应的联系人联系方式以及公司名字,提供给公司业务进行洽谈
饿了么信息爬取,针对大药房爬取相对应的联系人联系方式以及公司名字,提供给公司业务进行洽谈
百度地图信息爬取,各大药房主要联系方式,名称,地址采集
代码分为两个模块,1:主程序 2:get_cookie文件 提取ip,访问首页,睡眠,让页面完全加载,不然就会少cookie,用访问页面所需要的时间来判断,大于3s的NG,重新提取IP 小于3s的ok了,获取cookie,判断是否完整,_utma,_utmc,_utmz文件
需求为全国城市各个地级市的行业店铺对应数量,准备有省市区excel,获取excel,拼接为关键字加入参数获取url,得到json数据html,针对进行解析写入excel