第一生活网

AI日报:Luma官方亲自下场夸自家“孩子”;日本艺术家用Luma复活妻子看哭网友;苹果AI可能要放大家“鸽子”;北大快手联合推视频生成框架VideoTetri

阙君晴
导读 欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、Luma 官方发视频介绍Dream Machine模型特点

我看了站长之家关于Luma官方发布的Dream Machine模型介绍视频,感觉这款AI视频生成工具非常强大。它不仅提供高质量的视频输出,而且能够快速理解用户的提示,生成符合美学风格的视频内容。这对于创意迭代过程非常有帮助,让视频生成变得更加高效。

2、新对口型视频项目Hallo发布 可对表情,嘴型进行精确控制

新对口型视频项目Hallo发布,通过单张图像和音频输入生成唱歌和说话的视频,实现精确控制人物表情和姿态,提升语音输入与生成动画之间的对齐精度。该技术不仅可用于虚拟角色动画生成,还可应用于真实人物,支持多种运动控制,跨演员应用,以及歌唱动画生成。技术先进,动画逼真,具有广泛的应用潜力。

3、北大快手联合推视频生成框架VideoTetris 复杂视频生成效果超越Pika

本文介绍了北京大学与快手AI团队合作攻克复杂视频生成难题,提出VideoTetris框架,成功超越商用模型Pika和Gen-2。该框架定义了组合视频生成任务,支持复杂指令和长视频生成,保留位置信息和细节特征。团队采用时空组合扩散方法,优化训练数据预处理和引入参考帧注意力机制,生成更具动感和自然的视频。

4、日本AI艺术家用Luma复活妻子 网友泪目

这篇文章讲述了65岁的AI艺术家松尾公也用技术复活了他逝去11年的妻子Tori-chan,感动了无数人。通过AI技术,他重新编曲、录制妻子的歌曲,制作动态视频,并提取翻译她的信件,表达对妻子的思念和爱意。这是一个普通人用技术造梦的故事,展现了爱在AI时代的力量和温度。

5、清华与北大合作发布长视频理解基准测试:LVBench

本文介绍了智谱、清华大学和北京大学合作推出的长视频理解基准测试项目LVBench,旨在弥补现有多模态大型语言模型在处理长视频方面的挑战。该项目包含多类别的数小时QA数据,涵盖不同类型的视频内容,旨在推动长视频领域的技术突破和创新。许多研究机构已在LVBench数据集上展开工作,为视频理解和多模态学习领域注入新活力。

6、网格生成模型MeshAnything:将任何3D转换为艺术家创建的网格

近期,由重建和生成创建的3D资产已经达到了手工制作资产的质量水平,凸显了它们在替代领域的潜力。MeshAnything是一种用于生成艺术家创建的3D网格的自动回归模型,通过VQ-VAE和形状条件的仅解码器变压器实现高质量的网格生成。该方法显著提高了存储、渲染和模拟效率,同时保持与以往方法相当的精度。

7、哈佛神经科学家和谷歌DeepMind在虚拟老鼠中创建人工大脑

这篇文章介绍了哈佛大学研究人员与谷歌DeepMind团队合作,利用人工智能技术为虚拟老鼠创建人工"大脑"的突破性研究。他们成功建立了生物力学逼真的3D老鼠模型,并利用DeepMind的深度强化学习算法训练了一个人工神经网络大脑,实现了超越真实的模拟效果。这一创新有望为神经科学和人工智能领域带来革命性进展。

8、麦当劳宣布结束与 IBM 的 AI 得来速订购合作

麦当劳宣布结束与 IBM 的 AI 得来速订购合作,将在2024年7月26日前移除在100多家餐厅中测试的技术。尽管目前尚不清楚麦当劳为何结束与 IBM 的合作,但该公司表示正在测试语音接单聊天机器人是否能加快服务速度,并对测试结果表示自信。餐饮行业普遍渴望引入 AI 技术来提升效率。

9、研究:人们与ChatGPT对话五分钟,很难区分是否为人类

大型语言模型(LLMs)如 GPT-4模型在聊天平台ChatGPT展现出惊人能力,难以区分其生成的文本是否为人类所写。加州大学圣迭戈分校研究发现,人们与GPT-4对话时很难分辨其是否为人类,展示出机器展现人类智能的程度。

10、多模态模型的画布框架Sketchpad:提升多模态模型数学能力

这篇文章介绍了研究人员引入的“Sketchpad”概念,为多模态LM提供了视觉画板和绘图工具,使其能够进行视觉推理。通过实验结果显示,Sketchpad显著提高了LM在数学任务和复杂的视觉推理任务上的表现,进一步接近人类的思维方式,为人工智能技术的发展开辟了新的可能性。