概述: 1.设计和实现一个高效的爬虫系统,包括请求管理、数据解析等功能,以确保数据的准确性和稳定性。 2.对爬取到的素材数据进行预处理和清洗,去除无关信息、过滤敏感内容等,以提高后续 GPT 模型转写的质量和准确性。 3.使用 Docker 技术创建容器镜像,并配置相应的网络端口和环境变量,以方便其他开发人员调用接口,进行素材投喂和转写操作。 4.提供详细的文档和说明,介绍如何使用该接口,包括安装依赖、运行容器以及调用接口的方法和参数等内容。 业绩: 1.根据素材特点和需求,利用 Selenium 爬虫系统成功爬取和处理大量的目标网站数据,并将其转化为 GPT 模型可用的格...
在这个项目中,我负责数字人训练所需的大量含有人脸的视频的准备工作。我编写了 Python 代码,代码逻辑如下: 1.使用 Python的 subprocess 模块运行 shell 命令,调用 yutto 工具下载B站视频。yutto 是一个用于从B站下载视频的开源工具。 2.利用 MoviePy 库将长视频分割成多个5秒的短视频。 3.使用 dlib 库执行人脸检测,每15帧进行一次人脸检测。如果在检测到的短视频中存在人脸,就保留下来。 4.将保留下来的含有人脸的视频段落整理和存储,以供后续的数字人训练使用。 5.删除没有检测到人脸的视频段落,以减少数据集的大小和冗余...
在这个项目中,我使用 Selenium 框架并结合 Python 编程,开发了一个功能强大的登录和数据抓取系统。通过登录裁判文书网,能够获取到各类判决书的详细内容,并运用 Selenium 的元素定位技术,准确地提取出需要的信息,将判决书内容自动保存为 txt 文件,方便后续投喂给 GPT。...