• 精通掌握python中的Seleuim、requests、Fastapi、pandas、os、爬虫、正侧表达式、bs4、Numpy、多线程、异步协程、分布式爬虫,掌握Django、log日志监控,具有良好python基础。
• 熟练掌握http和https协议,熟练掌握js逆向工程与app逆向,了解常见的前端加密方式。
• 熟练掌握python中的LLM大语言模型(chatGLM)、langchain、向量数据库milvus、pytroch、docker工具等。
• 熟练使用Tomcat服务器发布 运行、SVN控制器、Git、debug模式和F12对代码的调试。
• 熟练使用MyEclipse、Eclipse、IntelliJ IDEA、Pycharm、Fiddler、SVCode、SVN等开发工具及其安装、配置环境.
• 掌握Redis及MongoDB等非关系型数据库,能够独立搭建Redis伪集群。
• 具有良好的职业素质,优点学习能力强 沟通能力理解力好 有亲和力 责任感强。
爬取房源信息、下载房源图片等,在web、app两端分别爬取
web:
1、requests.get()获取数据源网页 (模拟登入获取cookie或者用Selenium模拟操作网页获取数据源,或者破解验证码)
2、利用Beautiful Soup解析数据源
3、通过soup、正则表达式、Pathx截取到需要的字段
4、创建数据库,建立索引与标识
5、pymysql连接数据库,操作数据库进行添加数据
6、报错日记监控
7、反爬虫机制策略(使用AU,cookie,Referer、设置ip代理池,降低一个次爬取访问网页的测试)
8、对有些网页的请求进行解密生成值,与js逆向。
9、利用多线程分布式爬虫,异步爬取数据。
app:
1、使用Fiddler/charles前,设置配置,下载证书
2、建立Fiddler/charles与手机的连接,找寻目标数据包
3、requsets读取数据包
4、下载资源,或者数据存进数据库中
5、报错日记监控
6、反爬虫机制策略
7、反爬虫机制策略(使用AU,cookie,Referer、设置ip代理池,降低一个次爬取访问网页的测试)
8、对有些网页的请求进行解密生成值,与app逆向。(使用的逆向工具jadx )
9、利用多线程分布式爬虫,异步爬取数据。
scrapy:
1、分析爬取的网页,制定爬虫策略
2、创建scrapy项目,指定需要的提取链接的规则
3、分析数据结构,生成itmes
4、对爬虫根据爬虫策略进行编码
5、修改配置文件,配置管道
6、对网页进行解析,提取数据传给itmes提交给管道
7、在管道中进行数据的存储与持久化(MySQL)
8、开启下载中间的配置,在请求拦截器中进行对头部参数的设置,在响应拦截器中进行动态加载(Selenium),在请求
异常拦截器中设置ip代理与异常监控
在该项目中我充当python爬虫工程师,将同行数据(贝壳、安居客、58同城等)进行爬取入库,将入库的数据,用flask进行封装成API,等前端测试调用。
爬取当地的旅游景点,美食,住宿,娱乐数据,对数据进行处理,转成预训练数据,训练AI模型,对模型进行开启调用,做成接口,与前端进行交接。