深入研究多模态生成式人工智能_雷竞技官网官方网站入口/经营产品

深入研究多模态生成式人工智能

时间：2023-11-30 作者: 雷竞技官网官方网站入口/经营产品

多模态生成人工智(GenAI)能被认为是我们实现通用AI道路上的下一件大事。

过去几年推出的多种生成式AI工具证明了过去十年人工智能(AI)技术取得的突破。在相对较短的历史中，GenAI已经创造了一种紧迫感，将其引入任何组织的日常和利基操作元素。

虽然OpenAI的首个文本到图像生成器DALL-E的真实感对大多数组织来说作用有限，但ChatGPT的推出不到一年，已经让组织通过找各种途径来获得优势，其中生成AI可以积极影响运营。

根据McKinsey的《人工智能现状》，到2023年，三分之一的组织将把GenAI纳入至少一项业务功能。此外，在McKinsey的调查中，约75%的受访者预计GenAI将给其行业带来颠覆性的变化。

然而，GenAI现在采取了不同的形式，称为多模态，其接受多种感官输入，以相似或不同的数据类型提供输出。例如，ChatGPT的新更新赋予了其多模态的能力，其现在不但可以生成故事、文章和其他文本，还可以阅读。ChatGPT还能够最终靠语音提示执行任务。其还可以读取图像来识别特定的物体。

多模态GenAI被认为是我们实现通用AI之路上的下一件大事。让我们来看看它是什么。

多模态GenAI是一个经过设计、理论化并正在实施的概念，旨在提供多感官沉浸式体验。其从多种数据类型的组合中提取输出，以提供见解、内容等响应。

多模态生成式AI是一种人工智能，其结合了多种类型或模式的数据，如文本、图像、视频、音频、深度等，来创造更多对“现实世界”的设置、场景或问题做出准确的判断或更精确的预测。这些模型接受了它们需要解释或响应的多种模式/数据类型的数据集的训练。

多模态GenAI与GenAI类似，不同之处在于其利用多维嵌入或索引，并能依赖向量数据库做相关操作。这种差异的核心在于，多模态GenAI能够最终靠多维嵌入或索引来摄取、处理和输出多种类型的数据。

Meta今年早一点的时候发布的ImageBind多模态AI在ChatGPT的基础上更进一步，集成了六种模态，即文本、图像/视频、音频、深度、基于红外的热辐射和惯性测量单元(IMU)。该企业还将更多感官的整合，包括嗅觉和触觉，以及大脑功能磁共振成像信号作为多模态研究的一部分。

组合和处理来自多个来源的信息可以潜在地将差异均质化，以提供情境相关的结果。在企业环境中，这能大大的提升员工的工作效率。

通过为机器交互创建新的途径，多模态GenAI能重塑最终用户和业务用户的用户体验。

鉴于其在物理科学、生命/生物科学和社会科学研究中的应用潜力，其还具有一定的社会和科学效益。甚至在GenAI兴起之前，即2021年6月，Google就能利用其基于强化学习算法的机器学习模型来执行半导体布局规划，这是芯片设计的关键步骤。

最终，其可以基于跨多种模式的大量数据存储，在多感官/多模式空间中做出越来越准确的确定和预测。其不但可以比人类更快地接受数据训练，而且还可以更快地依据数据做出决策。

多模态GenAI已经看到了GenAI的一些应用，例如Adobe的Firefly文本到图像多模态和MidJourney。请注意，两个GenAI的多模态使其可接受音频和视觉输入。

多模态的另一个商业用例包括基于电话的自动化支持系统，该系统可能会将我们语气中明显的情绪转化为企业可用于报告和分析的文本数据。

另一方面，其也可能被用来损害用户的利益。一些“企业”慢慢的开始使用文本到音频多模态模型来生成更真实、更动态的声音，通过电话进行诈骗。

然而，就像以前的技术发明一样，多模态和常规GenAI允许数十种职业发展。律师、作家、科学家、教师等可以优化耗时的任务，例如研究、战略制定、文件起草和生成等，前提是这些任务属于多模态GenAI工具所训练的基础数据的范围。

这就是为什么我们距离主流应用渗透到社会结构还有数年的时间，还在于创建多模态人工智能的技术困难，其次是由于当前数据的限制。

总而言之，以有意义的方式使用多模态GenAI的能力不仅会变得复杂，因为模型本身更复杂，制作成本更高，且因数据的敏感性，围绕制作和使用其程序可能会更加棘手。所有这些都可能会减缓技术的广泛采用。

多模态生成人工智能可用于改善制造质量控制、汽车预测性维护以及制造供应链优化。在医疗保健领域，其能处理患者的生命体征、诊断数据、扫描图像、外观和其他文本/图像/音频/视频记录，以改进诊断和治疗计划。在零售业中，其可以分析来自各种来源的数据，包括传感器、摄像头和录音，以识别模式并预测未来的客户行为。还有更多。

从广义上讲，多模态GenAI可以为开发带来新的视觉元素。我们该看到某些类型的视觉和交互设计被颠覆，因为这有很大的可能性可使用可接受文本输入或视觉示例的模型来生成软件前端和使用者真实的体验的某些方面，并生成执行其所需的设计资产和前端代码。

此外，通过促进AR/VR的创造力，虚拟服务将出现在面向患者的医疗保健运营和多个别的行业中。沉浸式技术的改进在娱乐行业有明显的应用，但也可以在医疗技术/无障碍设备行业、制造业，甚至是设计和建筑等知识工作行业中创造令人兴奋的新事物。

文章内容仅供阅读，不构成投资建议，请谨慎对待。投资者据此操作，风险自担。

由中国轻工业联合会指导,中国轻工业信息中心、中国轻工业发展研究中心、中国家用电器研究院联合主办的第二届全国轻工适老创新产品及智能健康解决方案大赛,11月23日在安徽芜湖重磅揭晓最终评选结果!

上海车展正在火热进行中，一汽大众在2023上海车展中带来了ID家族的旗舰轿车产品，ID.7 VIZZION，新车基于MEB平台打造而来，预计将于今年下半年正式上市。

5月18日，为帮助中小企业解决定为难、运营难、资金难、人才难、资源难等问题，杭州市市场营销协会组织多家专业机构联合举办“名企游学，走进上市公司”活动，通过学习交流赋能中小企业更好地完成转型升级。此次活动走进“A股互联网第一股”浙江网盛生意宝股份有限公司。

5月18日，由京东携手爱空间整装举办的京东装修自营业务新品发布会暨京东联合爱空间整装新品媒体见面会正式召开。

上一篇:未来的智能与健康都是为了懂你

下一篇:OpenAI 的动荡揭示了AI行业潜在的结构性紧张：盈利、人力开源