法國 AI 實驗室 Kyutai 在巴黎發表了其 Moshi AI 助理,這款AI可以跟使用者進行自然對話。預計之後會將以開源形式發布公開。根據 Kyutai 實驗室的說法,Moshi 是第一個發表具有自然對話能力的公開可AI 語音助理。在之前 OpenAI 曾展示過 GPT-4o 的此類功能,但尚未釋出開放使用。現在AI技術是非常競爭的,看看之前的Sora和Dream Machine就是誰先開放搶大眾使用市佔率。

▲法國 AI 實驗室 Kyutai 在巴黎發表會
在發表會上,Kyutai CEO Patrick Perez 解釋說,Moshi 是由一個八人團隊在短短六個月內開發完成的。Moshi 的獨特之處在於其能夠實時說話和聆聽。Kyutai 宣稱 Moshi 的理論延遲僅為 160 毫秒,而實際操作中延遲範圍在 200 到 240 毫秒之間。
Moshi 的技術架構為Kyutai 所提到的“聲音語言模型”的新方法。與一般傳統將先將語音轉成為文字的做法不同,這款AI模型大幅壓縮聲音數據資料並將其視為類似模擬字詞(Pseudoword)的單位。讓AI可以即時反應直接處理聲音資料並預測對方可能會說出什麼,利用這技術開發成一個原生的多模態模型語言,類似之前 GPT-4o發表會上的技術。
因為這次以開發語音對話技術為主只訓練了約70億個英文語言參數資料,所以在對話上會有一些限制,例如中文就無法進行溝通,但以英文回覆及對話速度上還是非常優秀。
目前Moshi已經開放可以線上測試使用,但還是有一些延遲,可能是我們在亞洲地區主機在歐洲。預計會在後幾個月將這項技術完全公開,我們可以非常期待這樣技術在之後會帶給我們什麼樣的發展。

▲目前的登入畫面,需要先輸入Email進行登入

▲Moshi AI的即時資料處理畫面
▲看看發表會上有趣的Moshi AI即時對話效果

