全球AI音乐会第一次听见中国声音

盛夏将至,各条AI赛道也热烈了起来。如果评选一下,近段时间哪个领域的AI应用最为火爆,那么AI音乐创作绝对名列前茅。

一个月之前,海外初创企业Suno发布新版AI音乐生成大模型Suno V3,它可以根据用户自然语言快速生成相关风格音乐,在全球范围内引发热议。而就在不久前,来自前DeepMind团队成员的Udio音乐大模型发布。这款模型可以带来非常逼真的音乐制作效果,并且可以完成多段式、长音乐作品的生成。

AI音乐生成大模型赛道,竞争突然激烈了起来。加上OpenAI的MuseNet、谷歌的MusicLM、Meta的MusicGen等项目,我们似乎在今年迎来了一场全球AI音乐会。一时间异彩纷呈,好不热闹。

但在这场AI音乐会中,有一个现象非常值得重视:这一次,中国科技与全球前沿AI趋势之间没有时差,无缝衔接。我们不再是跟随者与追赶者,而是第一时间加入了这场音乐与AI的盛宴,奏响了属于自己的旋律。

4月2日,由昆仑万维打造的AI音乐生成大模型“天工SkyMusic”开启免费邀测,4月17日更是正式发布。

天工SkyMusic是国内唯一公开可用的AI音乐生成大模型,也是中国首个音乐SOTA模型。

它与震撼全球科技与音乐产业的Suno、Udio保持了时间线上的高度同步,同时多个领域的技术能力更加出色。在与Suno V3的横向测评中,天工SkyMusic在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手,并以6.65分的综合得分超越Suno V3,成为全球AI音乐最新SOTA模型。

“中国AI不缺席”,是一段我们期待了很久的旋律。究竟是什么让昆仑万维能够完成这次演奏?天工SkyMusic,以及背后的天工3.0有着怎样的产业与社会价值?

让我们打开这场全球AI音乐会,听懂一首关于“中国AI不缺席”的盛夏奏鸣曲。

不缺席的中国AI音乐大模型,不仅需要第一时间跻身行业一线,更需要在能力上拿出足够有说服力的答案。

天工SkyMusic在发布之后,获得了各方非常积极的反馈。来自媒体、音乐人与行业专家以及广大用户的声音,证明了其具备加入全球AI音乐大模型竞逐的底气。AI音乐会不仅发生在欧美,同时也奏响在东方。

通过采用音乐音频领域类Sora的DiT模型架构,天工SkyMusic在AI音乐大模型的几个核心能力指标上都有不俗的表现。

其中包括高质量的音乐生成能力、高逼真的人声模拟能力、高丰富度的歌词段落控制能力、高规模的音乐风格掌握,以及高灵活的音乐表达。

举例而言,欧美AI音乐风格多以“器”见长,更偏重乐器丰富度参数,但在人声拟合方面往往表现一般。

相较而言,昆仑万维天工SkyMusic则专门在人声自然度、发音可懂度上进行了模型专门训练,使得AI发音清晰、无异响,让大模型生成的音乐足以“以假乱真”。

此外,天工SkyMusic所能够创作的音乐,展现出了对多种不同音乐风格,不同生成诉求的把握。比如神曲改造对流行音乐的把握,古诗词改编对中国传统文化与格律的把握等。

透过广泛的生成案例,我们可以发现天工SkyMusic具有丰富的使用场景与广泛的需求人群,例如:

1.音乐从业者可以借助天工SkyMusic寻找灵感,辅助音乐创作。比如说,创作者可以输入一些“母题”,包括亲情、爱情等。通过天工SkyMusic生成的歌词与旋律来寻找灵感,探索创作边界。

2.短视频创作者和UP主可以通过音乐生成来拓展创作边界,降低音乐方案的创作门槛。比如说,UP主可以用天工SkyMusic改编“网络神曲”,获得新的视频BGM。下面这首神曲,天工SkyMusic就可以为你带来完全不一样的感受。

3.音乐爱好者与粉丝可以获得更多样的音乐乐趣,与自己喜欢的音乐类型、音乐风格进行更加多样性、深层次的互动。比如我们可以换一个声音,把我们喜欢的音乐进行重新演绎。

4.在教育教学场景中,天工SkyMusic可以用来辅助音乐教育,让学习者感受到音乐创作的内在逻辑与丰富技巧。同时还能够助力传统文化、乐器演奏等方面的教育教学。比如说,天工SkyMusic可以基于古诗词生成音乐,让学生更生动准确掌握古典文化的精髓。

在这样的应用价值基础上,我们还必须看到天工SkyMusic作为国内最早,也是目前唯一的AI音乐大模型,在填补产业空白方面的价值是巨大的。它的出现,意味着中国用户有了更加符合华语音乐创作习惯的AI模型,对中文有了更好的支持。同时它完全免费,不限使用次数,无需额外的使用门槛,这都是国外同类AI音乐模型所无法实现的。

除了上文提到的人声合成演唱能力外,在音乐风格上天工SkyMusic更加精巧且多元。它能够通过歌词控制情绪变化,实现如颤音、歌剧、吟唱等多种歌唱技巧,并且可以使生成的音乐作品情感更加丰富且贴合情境。在此基础上,天工SkyMusic支持创作说唱、民谣、放克、古风、电子等多种音乐风格,用户可以根据个人喜好定制音乐风格。

总体来看,天工SkyMusic开创了中国AI音乐大模型的先河,成为中国首个音乐AIGC SOTA,并且大幅提高了AI大模型音乐生成在人声领域的技术表现。

天工SkyMusic能够与全球AI音乐会同频奏响,背后必然离不开两点:一是战略方向的敏锐把握,二是技术底座的基石打造。

天工3.0采用了4000亿级参数MoE混合专家模型,是目前全球模型参数最大、性能最强的MoE模型之一。相较于上一代天工2.0MoE大模型,其在模型语义理解、逻辑推理,以及通用性、泛化性、不确定性知识、学习能力等领域都有着大幅的性能提升,其模型技术知识能力提升超过20%,数学/推理/代码/文创能力提升超过30%。

首次是逻辑推理能力的增强。天工3.0强大的逻辑推理能力使其能够在实际应用中更加准确和高效地处理信息。例如,在天工3.0AI搜索的研究模式中,能够围绕用户的某个简单指令进行相关问题的延伸,并实时判断该段落信息是否需要联网搜索。在分析某个具体行业的信息时,能够实现总结相关事件、拆解产业链地图等复杂功能,并以结构化或思维导图的形式进行最终展示,让AIGC能力与行业应用更紧密融合。

其次,是语义理解能力的增强。天工3.0能够更好地理解和处理用户自然语言Query中的复杂语义信息,包括隐喻、多义词等。比如说,天工3.0可以对用户Query进行拆解、细化,甚至对用户进行追问,从而在面对不确定知识时表现更好,能够满足用户多样化的需求。

此外,天工3.0新增了专项Agent训练能力。天工3.0可以针对模型独立规划、调用、组合外部工具及信息的能力进行了专项训练,使其能够独立生成并调用代码,完成包括产业研究、产品横评、信息分析、图片生成、图表绘制等多种复杂用户需求。

针对B端产业用户的需。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注