聯發創新基地全面開源MediaTek Research Breeze 2多模態基礎模型群,實現繁中AI助理

2025 年 2 月 14 日
AI
250212 Media Tek Research Breeze2 2048x1075

聯發創新基地(MediaTek Research)開源全新MediaTek Research Breeze 2(後略MR Breeze 2)多模態基礎模型群,包含適用於手機的羽量級(3B)以及個人電腦的輕量級(8B)繁中多模態語言模型Llama-Breeze2 、台灣口音語音合成模型BreezyVoice、以及搭載Llama-Breeze2 3B模型的Android 手機APP,為AI助理提供讀取圖片、調用外部工具等所需的能力。

繁中多模態語言模型Llama-Breeze2是基於Llama 3.2大型語言模型(Large Language Models,LLMs)開發,不但優化其繁體中文能力,亦整合視覺語言模型(Vision Language Models,VLMs)以及函式呼叫(Function Calling)功能。BreezyVoice則是針對台灣口音調整的語音合成模型(Text to Speech,TTS),實現僅需五秒的範例音訊,即可生成擬真語音,可作為AI助理的聲音輸出。除了模型開源外,聯發創新基地也首次開源搭載3B模型的Android APP,讓後續開發Llama-Breeze2的手機APP更加容易。聯發創新基地歡迎開發者社群持續擴充並使用這些基礎模型,讓客製化AI助理可以在台灣遍地開花。

繁中多模態語言模型Llama-Breeze2

繁中多模態語言模型Llama-Breeze2三大特色:繁體中文知識全面提升、整合視覺語言模型(Vision Language Models, VLMs)的多模態能力,以及結合函式呼叫(Function Calling)功能的調用工具能力。

提升AI助理語意辨識力 – 繁體中文知識全面提升

試請Llama-Breeze2-3B撰寫關於台灣夜市的小短文,並與Llama 3.2對標產出:

Llama 3.2 3B Instruct:

台灣的夜市文化是台灣人生活中不可或缺的一部分。夜市不僅提供各種美食,還有各式各樣的商品和娛樂活動。每當夜幕降臨,夜市便開始熱鬧起來,吸引了大量的遊客和當地居民。夜市裡的攤販們熱情地招呼顧客,讓人感受到濃厚的人情味。如,台北的夜市如士林夜市、電信夜市、世貿夜市等,都是人氣的熱門夜市之一。夜市裡的美食總能滿足不同人的口味,從海鮮到甜點,還有各種特殊的夜市特產。夜市不僅是購物和品嚐美食的好地方,也是體驗台灣文化的絕佳場所。

Llama-Breeze2-3B:

台灣的夜市文化是台灣人生活中不可或缺的一部分。著名的夜市如士林夜市、饒河街夜市和羅東夜市等,每當夜幕降臨,夜市便開始熱鬧起來,吸引了大量的遊客和當地居民。夜市裡的攤販們熱情地招呼顧客,讓人感受到濃厚的人情味。夜市裡的美食總能滿足不同人的口味。夜市不僅是購物和品嚐美食的好地方,也是體驗台灣文化的絕佳場所。

比較兩個模型生成結果,可以看出Llama-Breeze2-3B 在台灣夜市的知識深度和準確性上顯著優於Llama 3.2 3B Instruct。Llama-Breeze2-3B正確地列出了台灣各地著名的夜市,包括士林夜市、饒河街夜市和羅東夜市,展示了其對台灣夜市文化的廣泛理解。相對而言,Llama 3.2 3B Instruct僅正確識別了一個夜市(士林夜市),並生成了兩個不存在的夜市(電信夜市和世貿夜市)。

為AI助理加上眼睛 – 整合視覺能力的多模態語言模型  

Llama-Breeze2最引人注目的特色就是其多模態能力。它不僅能理解文字,還能分析圖像,讓使用者走到哪裡都能帶著AI小助理。想像一下,當您在旅行中拍下一張照片, Llama-Breeze2能識別這是哪個景點,並為您介紹其歷史或相關資訊。無論是閱讀圖表、光學文字辨識(Optical Character Recognition, OCR),還是解讀知名景點, Llama-Breeze2都能精準的理解和回應。

請Llama-Breeze2-8B就下圖內容回答問題:

  👩🏻 USER:

請問前三名總共可獲得多少錢?

 💬   Llama-Breeze2-8B

 根據圖片,第一名的獎金為30萬元整,第二名為20萬元整,第三名為15萬元整。將這些數字相加,我們得到前三名獎金總和為65萬元整。

 

Llama-Breeze2-8B根據問題所需,正確從該圖片中讀取前三名個別獎金金額,並且計算出總和,展現出其處理複雜繁體中文、多模態任務的潛力。

讓AI助理採取行動 – 結合函式呼叫(Function Calling)功能的調用工具能力

Llama-Breeze2另一大亮點是其強大的工具調用功能。它結合函式呼叫(Function Calling)功能,能調用外部工具,以加速完成特定任務。例如,當使用者詢問天氣情況時,模型可以調用天氣應用程式(API)來獲取最新的天氣資訊,並將結果回覆給使用者。這種功能調用大大提升了模型的實用性,使得人與模型可以交互協作。

台灣口音語音合成模型BreezyVoice – 開啟與AI助理的自然對話 

MR Breeze 2的語音合成模型(Text to Speech , TTS)BreezyVoice採用新式架構,並針對繁中強化訓練,在現有TTS市場中自然度最佳。BreezyVoice僅需5秒語音樣本,就可輸出擬真人聲,且其輕量化架構讓即時輸出成為可能,適合用於客製化其語音助理。BreezyVoice目前已能直接在筆電上使用,亦能結合任何LLM或語音轉文字(Automatic Speech Recognition, ASR)架構,延伸應用。

搭載Llama-Breeze2-3B模型的Android APP – 將AI助理放進你的口袋 

此次聯發創新基地還加碼開源可直接部署到個人手機的羽量級 Llama-Breeze2-3B模型的Android APP,讓手機APP開發者省去開發過程中繁瑣的介接流程,而將資源集中開發應用功能。這也同時意味使用者無論是在捷運上需要即時翻譯,還是在旅遊時想快速了解德記洋行的歷史,都可以隨時隨地都使用 Llama-Breeze2-3B的強大功能,讓它成為您的隨身智慧助理。

若您使用的是採用聯發科技天璣行動平台為主晶片手機,模型更能被搭載在手機中的AI運算單元(NPU)加速其執行,提升效率。這款APP展示了 Llama-Breeze2-3B在實際應用情境的潛力,尤其針對台灣本土知識以及多模態互動兩個面向。

以下實際展示羽量級 Llama-Breeze2-3B模型如何在手機上執行:

 

 

Llama-Breeze2-3B在經過一系列繁中圖文語音資料等的預訓練,在此展現其正確回覆本土常識的能力。

此外,該APP亦包含語音生成功能。使用者只要輸入文字,模型即可生成自然流暢的語音回應。這項功能為需要語音助理的應用情境,如智慧導航,提供了更直觀、便捷的使用體驗。

 

MR Breeze 2相關連結

MR Breeze 2繁中基礎模型群開源

MR Breeze 2 Android APP 開源

聯發創新基地模型主頁

MR Breeze 2繁中基礎模型群的誕生—論文

Related Articles

聯發科技新一代天璣旗艦平台最佳化,支援 Google Gemini Nano 的多模態模型

2024 年 10 月 6 日

聯發科技天璣平台支援Meta 全新生成式AI大型語言模型 Llama 3.2

2024 年 9 月 26 日

MediaTek Research Breeze-7B :體驗來自聯發創新基地最新具備廣泛專業知識的高效大型語言模型

2024 年 3 月 7 日
MTK Highlights

Sign up for our monthly newsletter

Executive Insights | Latest News & Events | Products & Technologies