Artificial Analysis Quality Index; Higher is better
Output Tokens per Second; Higher is better
USD per 1M Tokens; Lower is better
ECCV 2024在米兰闭幕,哥伦比亚大学的研究者凭借一篇关于极简主义视觉系统的论文获得最佳论文奖,该系统使用极少像素即可完成视觉任务,在隐私保护和节能方面具有巨大潜力。此外,两篇论文获得最佳论文荣誉提名奖,分别关注改进光栅化渲染梯度计算和规避扩散模型中概念抑制的方法。 经典论文Koenderink奖授予了Microsoft COCO数据集,表彰其对物体识别和场景理解的贡献;PAMI Everingham奖则颁给了CelebA人脸属性数据集团队和David Forsyth,以表彰他们在数据集创建和社区贡献方面的成就。
Pika 1.5 版本正式发布,带来显著升级,其核心功能是新增令人惊叹的特效制作能力,例如“Pikaffects”可以实现爆炸、融化等超现实效果。 该版本还支持更长的视频剪辑和更丰富的动作捕捉,例如跑步、滑板等,极大提升了视频生成的动态效果。 Pika 完成了8000万美元B轮融资,公司估值翻倍。 此次更新令Pika在与其他视频生成模型的竞争中重新占据优势地位,并被用户评价为“史诗级”更新。 Pika 1.5因其强大的特效功能,也被广泛认为是强大的meme生成工具。
OpenAI第二届DevDay开发者大会相对低调,主要关注现有AI工具和API的改进,而非重大产品发布。大会发布了四个API新功能:实时API,允许开发者构建低延迟的多模态应用;视觉微调,允许开发者用图像和文本微调GPT-4o模型;提示缓存,可降低开发者50%的成本;以及模型蒸馏,使小型模型能够拥有尖端模型的功能。 Sam Altman宣布GPT模型成本大幅降低,并表示通往AGI的道路更加清晰。 此次大会体现了OpenAI战略转向,更注重赋能开发者生态系统。
香港科技大学、香港大学和华为诺亚方舟实验室的研究人员开发了一个名为EMOVA的多模态人工智能助手,它能够处理图像、文本和语音,并通过情感控制实现更人性化的交互。EMOVA采用了一种创新的语义声学分离语音分词器,在保持视觉和语言理解性能的同时,实现了端到端的语音对话,并能根据上下文动态调整语音情感和风格。 该模型在多个基准测试中表现优异,在一些视觉理解任务中甚至超过了GPT-4o,并能生成情感丰富的语音。EMOVA通过文本作为桥梁,利用公开可用的双模态数据实现了高效的全模态对齐,避免了对稀缺三模态数据的依赖。这项研究为AI的情感交互提供了新的思路,具有显著的应用潜力。
Meta和佐治亚理工大学的研究者在ECCV会议上提出了一种名为LEGO的新模型,旨在解决人们学习新技能时遇到的难题。该模型通过生成第一视角的动作图像,以图片形式指导用户完成任务,比传统的文字指令更高效。LEGO模型的核心创新在于对大语言模型进行微调,以获取更详细的动作描述,并利用大语言模型的图像和文本特征来提升扩散模型的图像生成性能,从而有效弥合训练数据与实际应用间的差距。在Ego4D和Epic-Kitchens数据集上的实验结果表明,LEGO模型在图像质量和用户满意度方面均优于现有模型,展现了其在技能迁移领域的巨大潜力。
9月中国汽车市场新能源车销量创历史新高,比亚迪以近42万辆的销量领跑,同比增长显著。 理想和鸿蒙智行在销量和均价上超越BBA,国产车正在重塑豪华车市场格局。小鹏凭借MONA M03销量重回纯电新势力第一,而蔚来乐道上市后产能迅速售罄。 此外,吉利和长城在新能源转型和海外市场表现出色,其他新势力品牌如零跑、极氪和蔚来也保持了较高的销量增长,竞争激烈。
OpenAI发布了实时语音API公开测试版,允许开发者构建低延迟、多模态的AI应用,Agora被选为其合作伙伴之一。此次合作标志着OpenAI在AI应用领域的重要进展,其实时API能显著降低语音交互延迟,提升对话体验的自然度和真实感。Agora与其兄弟公司声网在今年五月拆分,Agora专注于美国及国际市场。 此次合作将促进AI语音应用的快速发展,并提升用户体验。