在AI时代,全球各大巨头都有自己特别的AI产品计划。近日,据NVIDIA官方消息,NVIDIA联合佐治亚理工学院、UMD和香港理工大学的研究团队推出了新的视觉语言模型。——NVEagle。
据悉,NVEAGLE能够理解复杂的现实生活场景,并通过视觉输入更好地解读和回应。其设计的核心是将图像转换为视觉标记,然后与文本嵌入相结合,从而提高对视觉信息的理解。
NVEagle包括三个版本:Eagle-X5-7B、Eagle-X5-13B和Eagle-X5-13B-Chat。其中,版本7B和13B主要用于一般视觉语言任务,而版本13B-Chat则专门针对对话型AI进行了微调,以便更好地基于视觉输入进行交互。
NVEagle的一大亮点是,它采用了混合专家(MOE)机制,可以根据不同的任务动态选择最合适的视觉编码器,大大提高了处理复杂视觉信息的能力。该模型已在拥抱脸上发布,便于研究人员和开发人员使用。