Hot AI Informations

ECCV 2024在米兰闭幕，哥伦比亚大学的研究者凭借一篇关于极简主义视觉系统的论文获得最佳论文奖，该系统使用极少像素即可完成视觉任务，在隐私保护和节能方面具有巨大潜力。此外，两篇论文获得最佳论文荣誉提名奖，分别关注改进光栅化渲染梯度计算和规避扩散模型中概念抑制的方法。经典论文Koenderink奖授予了Microsoft COCO数据集，表彰其对物体识别和场景理解的贡献；PAMI Everingham奖则颁给了CelebA人脸属性数据集团队和David Forsyth，以表彰他们在数据集创建和社区贡献方面的成就。

Pika 1.5王者归来！将一切压扁、膨胀、融化、爆炸，化身为了超强特效利器

Pika 1.5 版本正式发布，带来显著升级，其核心功能是新增令人惊叹的特效制作能力，例如“Pikaffects”可以实现爆炸、融化等超现实效果。该版本还支持更长的视频剪辑和更丰富的动作捕捉，例如跑步、滑板等，极大提升了视频生成的动态效果。 Pika 完成了8000万美元B轮融资，公司估值翻倍。此次更新令Pika在与其他视频生成模型的竞争中重新占据优势地位，并被用户评价为“史诗级”更新。 Pika 1.5因其强大的特效功能，也被广泛认为是强大的meme生成工具。

乏善可陈的第二届OpenAI开发者大会，果然没有掀起太大波澜

OpenAI第二届DevDay开发者大会相对低调，主要关注现有AI工具和API的改进，而非重大产品发布。大会发布了四个API新功能：实时API，允许开发者构建低延迟的多模态应用；视觉微调，允许开发者用图像和文本微调GPT-4o模型；提示缓存，可降低开发者50%的成本；以及模型蒸馏，使小型模型能够拥有尖端模型的功能。 Sam Altman宣布GPT模型成本大幅降低，并表示通往AGI的道路更加清晰。此次大会体现了OpenAI战略转向，更注重赋能开发者生态系统。

mini-GPT4o来了? 能看、能听、会说，还情感丰富的多模态全能助手EMOVA

香港科技大学、香港大学和华为诺亚方舟实验室的研究人员开发了一个名为EMOVA的多模态人工智能助手，它能够处理图像、文本和语音，并通过情感控制实现更人性化的交互。EMOVA采用了一种创新的语义声学分离语音分词器，在保持视觉和语言理解性能的同时，实现了端到端的语音对话，并能根据上下文动态调整语音情感和风格。该模型在多个基准测试中表现优异，在一些视觉理解任务中甚至超过了GPT-4o，并能生成情感丰富的语音。EMOVA通过文本作为桥梁，利用公开可用的双模态数据实现了高效的全模态对齐，避免了对稀缺三模态数据的依赖。这项研究为AI的情感交互提供了新的思路，具有显著的应用潜力。

ECCV2024 Oral | 第一视角下的动作图像生成，Meta等提出LEGO模型

Meta和佐治亚理工大学的研究者在ECCV会议上提出了一种名为LEGO的新模型，旨在解决人们学习新技能时遇到的难题。该模型通过生成第一视角的动作图像，以图片形式指导用户完成任务，比传统的文字指令更高效。LEGO模型的核心创新在于对大语言模型进行微调，以获取更详细的动作描述，并利用大语言模型的图像和文本特征来提升扩散模型的图像生成性能，从而有效弥合训练数据与实际应用间的差距。在Ego4D和Epic-Kitchens数据集上的实验结果表明，LEGO模型在图像质量和用户满意度方面均优于现有模型，展现了其在技能迁移领域的巨大潜力。

中国车的金九银十：比亚迪狂卖42万辆，理想销量超BBA，鸿蒙智行单日5200大定

9月中国汽车市场新能源车销量创历史新高，比亚迪以近42万辆的销量领跑，同比增长显著。理想和鸿蒙智行在销量和均价上超越BBA，国产车正在重塑豪华车市场格局。小鹏凭借MONA M03销量重回纯电新势力第一，而蔚来乐道上市后产能迅速售罄。此外，吉利和长城在新能源转型和海外市场表现出色，其他新势力品牌如零跑、极氪和蔚来也保持了较高的销量增长，竞争激烈。

Open AI发布实时API语音合作伙伴 Agora、Twilio在列

OpenAI发布了实时语音API公开测试版，允许开发者构建低延迟、多模态的AI应用，Agora被选为其合作伙伴之一。此次合作标志着OpenAI在AI应用领域的重要进展，其实时API能显著降低语音交互延迟，提升对话体验的自然度和真实感。Agora与其兄弟公司声网在今年五月拆分，Agora专注于美国及国际市场。此次合作将促进AI语音应用的快速发展，并提升用户体验。

95后创业AI游戏陪玩，留存付费双高！已适配《黑神话》，团队全员二次元

桌崽AI是一款备受关注的AI桌面陪伴宠物，其核心功能是为用户提供游戏全程陪伴和攻略，并支持自定义角色形象、声线和性格，显著提升了用户留存率。该产品由脸谱心智团队开发，基于自研的多模态大模型，能够实时反馈游戏表现、提供攻略，并进行日常聊天等互动。其独特的二次元风格和高度自定义功能使其在市场上脱颖而出，并展现出良好的用户粘性，数据显示其每日平均使用时长达237分钟。目前桌崽AI主要面向PC端，但手机版本即将推出，未来更计划拓展至更多领域。团队由95后创始人Adam带领，拥有丰富的AI研发经验和对二次元文化的深刻理解。