(1)简单爬虫使用,熟练掌握fastapi、flask,api部署工具,gradio深度学习前后端测试网站开发。
(2)主要使用深度学习框架pytorch、huggingface transformer、padlepaddle,简单使用TensorFlow、keras。熟练掌握op
encv、pillow图像处理,使用tensorrt、onnx进行加速推理,充分利用GPU资源,真实场景中使用多线程部署。
(3)图像方向开发:目标检测,目标跟踪,语义分割,全景分割,行为识别,姿态评估,人脸识别,人脸检测,人脸对齐,二维
码识别,OCR文字识别,GAN图像生成与编辑,stable diffusion绘画。
(4)语音方向开发:语音识别asr,语音合成tts,变声器rvc。
(5)文本方向开发:关键信息抽取(自动抽取快递单号等),文本审核(鉴黄),多标签分类(法律案件分类),问答系统(法
律智能聊天机器人) ,翻译,LLama大语言模型prompt设计与模型调教。
(6)视频方向开发:Moviepy(python代码),FFmpeg(命令行)。
1. 使用stable-diffusion本地部署AI绘画,中文prompt自动翻译,自定义lora训练,图片识别prompt实现图像重绘,在此基础上
api接口调用提供多种不同风格模型,PuLID明星艺术照生成。
2. 使用ffmpeg,视频片段混剪与拼接,添加文字、图片、视频、GIF贴纸,音频混音合并,转场特效,画面特效,音效,字幕,
抽帧,随机片段变声,批量制作视频,自动剪辑,在抖音搬运领域可使用较为简单的操作方法,生成千万条视频,轻松过原创。
3. 使用GPT-sovits制作文本转语音,语音合成服务,应用于视频剪辑。
4. 使用LLama大语言模型进行翻译,根据小说内容生成SD图像prompt,在低端显卡下使用LLama-cpp运行7B模型。
5.接入chatGPT,将小说内容进行分析,提取文章角色信息与,每个画面对应的画面关键词。
6. 视频/音频,支持mp4/wav/mp3等格式,识别语音并转换成srt字幕文件,可用于再次配音。
7. 图像超分,将AI绘画的图片进行超分辨率,优点在于,由于直接画高分辨率图像显存消耗和时间消耗都较长,画较低分辨率图像
整体画面无杂物的情况下,提高图像清晰度。
等等。。。
1.微信小程序,提供AI绘画制作小说视频功能,实现用户0基础创作体验。 2.实现AI技术与网站后端的高效对接,创新整合stable-diffusionAI绘画、GPT-sovits语音合成、ffmpeg视频编辑、llama大语言 模型等技术,提升视频内容创作效率,批量视频剪辑
图生视频 ,文生视频 ,语音合成,语音识别,歌曲翻唱,图像清晰,图片表情驱动,视频表情驱动,数字人,AI扩图,图片换脸,真人转动漫,AI消除