Pytorch image_caption生成字幕功能模块
数据来自于AI Challenger图像描述,需要安装pytorh和requirements.txt环境依赖,可以用data_preprocess.py进行新模型的训练。
预处理python data_preprocess.py process
--annotation-file=/data/annotation.json
--max-words=5000
提取图片特征python feature_extract.py
训练 python main.py train
--img_path='path to train_image'
--img_features_path='../results.pth'
成果
GPT2_chinese故事生成功能模块
中文的GPT2训练代码,可以写诗,新闻,小说,或是训练通用语言模型。使用Bert的tokenizer处理中文字符。
生成样例