据ITHome(IT之家)报道,基于ChatGPT的聊天已经让很多用户感受到了AI的强大,但微软最近发布了更强大的全能型AI——Kosmos-1。ChatGPT是纯文本LLM,是更强大的多模大规模语言模型(MLLM)。
Kosmos-1能够分析图像内容,解决视觉难题,执行视觉文本识别,通过视觉智商测试,理解自然语言指令。根据Kosmos-1
可以构建万能型人工智能,能够处理文本、音频、图像、视频等内容,像人类思维一样处理任务。
研究人员在他们的学术论文中写道:“作为智能的基本组成部分,多模态感知是实现人工智能的必要条件。”Kosmos-1论文的视觉样本显示模型分析图像,回答图像问题,从图像中读取文本,制作图像标题,并以22-26%的准确率进行视觉智商测试。
微软计划向开发者提供Kosmos-1,但他表示,本文引用的GitHub页面在发表本文时没有明显的Kosmos特定代码。