据悉,RWKV是国产开源的首个非Transformer架构的大语言模型,结合了RNN和Transformer的相关特性:出色的性能、快速的推理、快速的训练、节省VRAM、“无限” 的ctxlen和免费的句嵌入,而且100% 不含自注意力机制。
杨铠成谈到,在大模型时代背景下,RWKV架构得益于其在长上下文背景下的高效训练和推理能力,得到了广泛的关注。伴随着RWKV、Mamba等架构的爆火,格灵深瞳第一时间将这类架构应用到图文表征学习任务中,并构建了RWKV-CLIP模型,在相同的预训练数据以及预训练参数设置下,RWKV-CLIP相较于基于Transformer架构的CLIP模型,在线性探测、零样本分类、零样本检索等任务中展示出了显著的性能提升。相关论文目前已被EMNLP 2024主会录用,相关训练代码、数据均已开源。
Github主页:https://github.com/deepglint/RWKV-CLIP
Huggingface数据:https://huggingface.co/datasets/Kaichengalex/YFCC15M
作为行业领先的人工智能公司,格灵深瞳高度重视与社区和学术领域的交流合作。近日,格灵深瞳还发布了亿级规模的图文预训练RealSyn数据集,通过构建一种高效的数据清洗和转换范式,将图文交错文档转换为图文对比学习可高效使用的图文对数据。目前相关论文与数据集均已开源。
论文:https://arxiv.org/pdf/2502.12513
项目主页:https://garygutc.github.io/RealSyn
Github地址:https://github.com/deepglint/RealSyn
HuggingFace数据集:https://huggingface.co/datasets/Kaichengalex/RealSyn100M