本书以深入浅出的方式介绍多模态大模型的技术方法、开源平台和应用场景,并详细阐述因果推理、世界模型及多智能体与具身智能等前沿技术领域,有助于读者全面了解多模态大模型的特点及发展方向,对新一代人工智能技术范式和通用人工智能的发展起到重要推动作用。
全书内容共5章,第1章引领读者深入探索最具代表性的大模型结构,包括BERT、Chat-GPT 和ChatGLM等,为建立对多模态大模型的全面认知打下基础。第2章深度剖析多模态大模型的核心技术,如提示学习、上下文学习、思维链和人类反馈强化学习等,揭示多模态大模型的独特之处和引人入胜的技术内涵。第3章介绍多个具有代表性的多模态基础模型,如CLIP、LLaMA、SAM和PaLM-E等,为读者呈现多样和广泛的技术解决方案。第4章深入分析视觉问答、AIGC和具身智能这三个典型应用,展示多模态大模型在实际场景中的强大能力。第5章探讨实现AGI的可行思路,包括因果推理、世界模型、超级智能体与具身智能等前沿技术方向。
本书不仅适合高校相关专业高年级本科生和研究生作为教材使用,更是各类IT从业者的案头手册。