2023年,我们看到了扩散模型推理速度方面的一些重大理论改进,例如Song等人的原始一致性模型论文,以及最近的LCM。(另外,对抗扩散蒸馏。)我们已经开始看到使用这些想法的项目,例如Dan Wood的Art Spew(每秒77512×512图像,在单个4090上)、Modal的Turbo.art(基于SDXL Turbo) 和fal.ai的30fps脸部交换。
7. 没有AGI。山姆-奥特曼(Sam Altman)对AGI的看法似乎仍是遥不可及的梦想。关于AGI定义和时间表的争论仍在继续,但我们不会在2024年看到AGI。
8. 合成数据激增。合成数据在AI领域正变得至关重要,尤其是在医疗保健和金融等敏感领域(作为隐私和偏见的解决方案)。如果我们能解决合成数据问题,它将有利于开源,因为在开源领域,购买海量数据集并不是一种选择。
LLaVA是一个端到端训练的多模态大模型,它将视觉编码器和用于通用视觉和语言理解的Vicuna相结合,具备令人印象深刻的聊天能力。而CogAgent是在CogVLM基础上改进的开源视觉语言模型,拥有110亿个视觉参数和70亿个语言参数。
语音自动生成字幕: 工具具备自动生成字幕的功能,用户可以在软件中对生成的字幕进行灵活编辑,确保最佳的翻译效果。