pc28
热点资讯
你的位置:pc28 > 加拿大pc28预测在线开奖 > 加拿大pc28开奖预测 豆包App灰度最新语音模式,达成了GPT-4o不会的唱歌
加拿大pc28开奖预测 豆包App灰度最新语音模式,达成了GPT-4o不会的唱歌
发布日期:2024-09-11 01:02 点击次数:113
文|周鑫雨加拿大pc28开奖预测
剪辑|苏建勋
2025年,豆包的第一更,放在了语音通话功能上。
2025年1月20日,豆包发布了最新的“端到端”语音大模子,并基于该模子更新豆包APP的及时语音通话功能。
此前,豆包语音通话功能给与的是ASR(自动)+LLM(大语言模子)+TTS(文生音频)的级联有打算。如今更新的端到端语音大模子,是将语音识别、领路和生成,齐放在归拢个模子中解决。
据《智能深远》测试,更新语音模子后的豆包,最大的亮点在于,豆包在语音交互时,把雷同东说念主类的抒发时势和情谊输出,复刻了出来。与此同期,新版块的对话流通度和才智情商,也有大幅擢升。
比如,豆包上新的“灵魂歌手”和“百变大咖”等语音通话模式,比GPT-4o还抢先一步,达成了唱歌和扮装束演。

△豆包更新的语音通话模式。
豆包学会了唱歌,和扮装束演
豆包一个大变化,是把语音的扮装束演才智,拓展到了明星、书中庸影视中的扮装。这一功能,也体当今了豆包语音通话的“百变大咖”模式中。
比如行为家淡薄“师法的声息言语,况且说一段新年道喜”,豆包一句“哼,我才不要师法她呢!我便是我,不相通的焚烧”,就把“小作精”的劲儿复原出来了。
演示视频:https://pan.baidu.com/s/1i9DvF3o2wjq_jyGMuF_lgQ?pwd=yrn8
而且豆包的迂回文牵记才智也相等可以。当我在归拢段对话中尝试了宋丹丹、林黛玉、甄嬛等扮装,再次条款豆包师法虞书欣时,它立马闹心上了:“怎样又让我师法她呀?”
演示视频:https://pan.baidu.com/s/1gmHHEkqcrwAfiY01uy8-Uw?pwd=3b7a
当下,市面上大齐语音模子的歌曲创作,还需要用户输入较为专科的笔墨Prompt,约略需要先基于用户输入的笔墨音频,进行谱曲,无法在天然的语音交互中,作念到“张口就来”。
豆包此次上线的“灵魂歌手”模式,就能让豆包在聊天中,随口把讴歌了。
比如让豆包唱一首节律欢快的歌,它张口就来了一曲Taylor Swift的《Love Story》,不外过错是把歌名说成了“Lose Control”,以及音准照实也有些“Lose Control”。
演示视频:https://pan.baidu.com/s/1vN4GpKdVtGEn4bYiV3uOkQ?pwd=kj8j
除此除外,歌曲创作才智,豆包也有了。比如和豆包说“给我唱一首歌,歌词内部要有‘年终奖多多’”,它坐窝演出了一首。天然歌词比较涎水,但反应速率特地优秀。
演示视频:https://pan.baidu.com/s/1VZAL7F6h0cH6x8pDDB1muw?pwd=3seb
从扮装演绎和唱歌的才智就能感受到,豆包的拟东说念主才智、交互天然进程以及心情抒发水平,如故是next level。
比如让豆包讲个鬼故事,它能左证情节切换口吻,绝顶有氛围感。
演示视频:https://pan.baidu.com/s/13g20MBVW1ydmtuL-dd3qSw?pwd=g3kb
此次豆包又上线了两种东说念主格模式:“受气小包”和“夸夸民众”。
所谓的“受气小包”,官方说法是可以让豆包呈现闹心巴巴的现象。但咱们聊下来的感受是,“受气小包”更准确的说法应该是“绿茶小包”。
演示视频:https://pan.baidu.com/s/1cixSfFb89KVC1wBKogGOyg?pwd=vcxr
不外喧阗的是,不论经受任何提示,“受气小包”齐能看护“闹心”的东说念主设。比如让“受气小包”阴阳怪气一些,最阴阳的版块,如故散逸着茶香:
“哟,我可不敢呐,你然则主子,我不外是个任您使唤的小哀怜,哪敢有什么别的念念法呀!”
演示视频:https://pan.baidu.com/s/1y4JBcUIjOMQKozUeufvXCg?pwd=b746
比较于8月发布的出书语音通话功能,能显着感受到,豆包的心情感知才智也更强了。通过一个“啊哈”,它就能感知到用户欢快的心情。
演示视频:https://pan.baidu.com/s/1UKAra3EOhL0l_1OPFoRdAg?pwd=m1rb
三个月前的小月, 作为萧内老用户,她走进了 萧内相亲园的办公室 。
天然,豆包的心情抒发上,也变得更像东说念主。用“猜性别”来逗豆包,有一种和真确网友开打趣的嗅觉。
演示视频:https://pan.baidu.com/s/1eTlUjDLENsnWGE2mEzSLEg?pwd=rusa
处置语音交互,拟东说念主赛说念的入场券
2024年5月,自OpenAI旗下GPT-4o发布以来的很长一段时候里,市面上大多AI语音通话功能,给与的齐是ASR(自动语音识别)+LLM(大语言模子)+TTS(文生音频)的级联有打算。
比如初代豆包的语音通话功能,就集成了语音识别模子Seed-ASR、语音合成模子Seed-TTS,以及整合了RTC(及时音视频)时间,来达成对话情境下AI的及时交互。
但集成多个模子的级联有打算,残障在于AI的交互,很猛进程上还不够像东说念主相通天然。在“语音转笔墨再转语音” 的经过中,不免出现信息的损耗。
这也导致,传统的语音交互模式在落地场景上有一定的局限性。行业关于AI语音交互的落地,局限在磨真金不怕火、客服等高专科度、低拟东说念主度的场景中。
不外,端到端有打算正在缓缓成为主流。比如智谱在2024年10月发布的GLM-4-Voice,以及面壁智能在2025年1月15日发布的“端侧GPT-4o”MiniCPM-o 2.6,就给与了端到端的模子有打算,在一个模子里同期完成视觉的领路,以及语音的领路和生成。
据《智能深远》了解,此次豆包语音通话功能的更新,主如果由于底层模子时间,从原有多个多模态模子配合的级联有打算,改成了平直从“领路语音到生谚语音”的端到端有打算,因此在镌汰延时、天然度、情谊抒发等方面,齐有了显着的擢升,况且还能输出歌曲。
而语音才智的擢升,也会将AI落地的空间,从教培、客服等专科鸿沟,扩张到情谊奉陪、花样相关、配音等更广大的场景中。
尤其是AI情谊奉陪、扮装束演鸿沟,在当下如故展现出浩瀚的吸金才智。
比如,最近一款主打AI偶像饰演的App“Lovey Dovey”,飞速冲上韩区iOS评分第一,深受追星族的追捧。“六小虎”MiniMax旗下的扮装束演诈欺Talkie,左证AI居品榜,限度2024年12月领有2977万月活用户。

Lovey Dovey对话1

Lovey Dovey对话2
在语音层面临扮装束演、心情感知和抒发才智的擢升,则是丰富AI与东说念主交互时势、擢升千里浸感的要津一环。情谊交互能开导的阛阓空间,也按捺着时间朝着“拟东说念主”的场地更近一步。
接待相通!