- Convolutional Tokenizer (CT) 模块,它可以将输入图像或视频转换为一系列的token,作为Transformer的输入。这个模块可以提高模型的数据利用率和训练稳定性。
- Spatio-Temporal Attention (STA) 模块,它可以在Transformer的每一层中同时考虑空间和时间维度的信息,从而更好地捕捉脉冲信号的特征依赖关系。
- Spikeformer Encoder,它是一个由多个STA模块堆叠而成的编码器,可以对token进行多层次的特征提取和融合。
- Spikeformer Decoder,它是一个由多个STA模块堆叠而成的解码器,可以对编码器的输出进行进一步的处理和分类。