123,123

Arm攜手AWS助力實(shí)現(xiàn)AI定義汽車

發(fā)布時(shí)間：2025-04-17 來(lái)源：投稿責(zé)任編輯：admin

隨著人工智能 (AI)，尤其是生成式 AI 的引入，汽車行業(yè)正迎來(lái)變革性轉(zhuǎn)變。麥肯錫最近對(duì)汽車和制造業(yè)高管開(kāi)展的一項(xiàng)調(diào)查表明，超過(guò) 40% 的受訪者對(duì)生成式 AI 研發(fā)的投資額高達(dá) 500 萬(wàn)歐元，超過(guò) 10% 受訪者的投資額超過(guò) 2,000 萬(wàn)歐元。

隨著行業(yè)向軟件定義汽車 (SDV) 不斷發(fā)展，到 2030 年，汽車中的代碼行數(shù)預(yù)計(jì)將從每輛車 1 億行增加至約 3 億行。面向汽車的生成式 AI 與 SDV 相結(jié)合，可共同實(shí)現(xiàn)性能和舒適性方面的車載用例，以幫助提升駕乘體驗(yàn)。

本文將介紹一項(xiàng)由 Arm 與亞馬遜云科技 (AWS) 合作開(kāi)發(fā)的車載生成式 AI 用例及其實(shí)現(xiàn)詳情。

用例介紹

隨著汽車愈發(fā)精密，車主已經(jīng)能在交車后持續(xù)接收諸如停車輔助或車道保持等功能更新，伴隨而來(lái)的挑戰(zhàn)是，如何讓車主及時(shí)了解新增的更新和新功能？過(guò)往通過(guò)紙質(zhì)或在線手冊(cè)等傳統(tǒng)方法的更新方式已證明存在不足，導(dǎo)致車主無(wú)法充分了解汽車的潛能。

為了應(yīng)對(duì)這一挑戰(zhàn)，AWS 將生成式 AI、邊緣計(jì)算和物聯(lián)網(wǎng) (IoT) 的強(qiáng)大功能相結(jié)合，開(kāi)發(fā)了一項(xiàng)車載生成式 AI 的演示。這項(xiàng)演示所展現(xiàn)的解決方案是由小語(yǔ)言模型 (SLM) 所支持的車載應(yīng)用，旨在使駕駛員能夠通過(guò)自然語(yǔ)音交互獲取最新的車輛信息。該演示應(yīng)用能夠在部署后離線運(yùn)行，確保駕駛員在沒(méi)有互聯(lián)網(wǎng)連接的情況下，也能訪問(wèn)有關(guān)車輛的重要信息。

該解決方案集成了多項(xiàng)先進(jìn)技術(shù)，為用戶打造出更無(wú)縫、更高效的產(chǎn)品體驗(yàn)。這項(xiàng)演示的應(yīng)用部署在車內(nèi)本地的小語(yǔ)言模型，該模型利用經(jīng) Arm KleidiAI 優(yōu)化的例程對(duì)性能進(jìn)行提升。未經(jīng) KleidiAI 優(yōu)化的系統(tǒng)的響應(yīng)時(shí)間為 8 至 19 秒左右，相比之下，經(jīng) KleidiAI 優(yōu)化的小語(yǔ)言模型的推理響應(yīng)時(shí)間為 1 至 3 秒。通過(guò)使用 KleidiAI，應(yīng)用開(kāi)發(fā)時(shí)間縮短了 6 周，而且開(kāi)發(fā)者在開(kāi)發(fā)期間無(wú)需關(guān)注底層軟件的優(yōu)化。

Arm 虛擬硬件 (Arm Virtual Hardware) 支持訪問(wèn)許多 AWS 上的熱門物聯(lián)網(wǎng)開(kāi)發(fā)套件。當(dāng)物理設(shè)備不可用，或者全球各地的團(tuán)隊(duì)無(wú)法訪問(wèn)物理設(shè)備時(shí)，在 Arm 虛擬硬件上進(jìn)行開(kāi)發(fā)和測(cè)試可節(jié)省嵌入式應(yīng)用的開(kāi)發(fā)時(shí)間。AWS 在汽車虛擬平臺(tái)上成功測(cè)試了該演示應(yīng)用，在演示中，Arm 虛擬硬件提供了樹(shù)莓派設(shè)備的虛擬實(shí)例。同樣的 KleidiAI 優(yōu)化也可用于 Arm 虛擬硬件。

這個(gè)在邊緣側(cè)設(shè)備上運(yùn)行的生成式 AI 應(yīng)用所具備的關(guān)鍵特性之一是，它能夠接收 OTA 無(wú)線更新，其中部分更新使用 AWS IoT Greengrass Lite 接收，從而確保始終向駕駛員提供最新信息。AWS IoT Greengrass Lite 在邊緣側(cè)設(shè)備上僅占用 5 MB 的 RAM，因此具有很高的內(nèi)存效率。此外，該解決方案包含自動(dòng)質(zhì)量監(jiān)控和反饋循環(huán)，用于持續(xù)評(píng)估小語(yǔ)言模型響應(yīng)的相關(guān)性和準(zhǔn)確性。其中采用了一個(gè)比較系統(tǒng)，對(duì)超出預(yù)期質(zhì)量閾值的響應(yīng)進(jìn)行標(biāo)記，以進(jìn)行審核。然后，通過(guò) AWS 上的儀表板，以近乎實(shí)時(shí)的速度對(duì)收集到的反饋數(shù)據(jù)進(jìn)行可視化，使整車廠的質(zhì)保團(tuán)隊(duì)能夠?qū)徍撕痛_定需要改進(jìn)的方面，并根據(jù)需要發(fā)起更新。

這個(gè)由生成式 AI 提供支持的解決方案，所具備的優(yōu)勢(shì)不僅僅在于為駕駛員提供準(zhǔn)確的信息。它還體現(xiàn)了 SDV 生命周期管理的范式轉(zhuǎn)變，實(shí)現(xiàn)了更持續(xù)的改進(jìn)周期，整車廠可以根據(jù)用戶交互來(lái)添加新內(nèi)容，而小語(yǔ)言模型可以使用通過(guò)無(wú)線網(wǎng)絡(luò)無(wú)縫部署的更新信息進(jìn)行微調(diào)。這樣一來(lái)，通過(guò)保證最新的車輛信息，用戶體驗(yàn)得以提升，此外整車廠也有機(jī)會(huì)向用戶介紹和指導(dǎo)新特性或可購(gòu)買的附加功能。通過(guò)利用生成式 AI、物聯(lián)網(wǎng)和邊緣計(jì)算的強(qiáng)大功能，這個(gè)生成式 AI 應(yīng)用可以起到汽車用戶向?qū)У淖饔?，其中展示的方法有助于?nbsp;SDV 時(shí)代實(shí)現(xiàn)更具連接性、信息化和適應(yīng)性的駕駛體驗(yàn)。

端到端的上層實(shí)現(xiàn)方案

下圖所示的解決方案架構(gòu)用于對(duì)模型進(jìn)行微調(diào)、在 Arm 虛擬硬件上測(cè)試模型，以及將小語(yǔ)言模型部署到邊緣側(cè)設(shè)備，并且其中包含反饋收集機(jī)制。

圖：基于生成式 AI 的汽車用戶向?qū)У慕鉀Q方案架構(gòu)圖

上圖中的編號(hào)對(duì)應(yīng)以下內(nèi)容：

1. 模型微調(diào)：AWS 演示應(yīng)用開(kāi)發(fā)團(tuán)隊(duì)選擇 TinyLlama-1.1B-Chat-v1.0 作為其基礎(chǔ)模型，該模型已針對(duì)會(huì)話任務(wù)進(jìn)行了預(yù)訓(xùn)練。為了優(yōu)化駕駛員的汽車用戶向?qū)Я奶旖缑?，團(tuán)隊(duì)設(shè)計(jì)了言簡(jiǎn)意賅、重點(diǎn)突出的回復(fù)，以便適應(yīng)駕駛員在行車時(shí)僅可騰出有限注意力的情況。團(tuán)隊(duì)創(chuàng)建了一個(gè)包含 1,000 組問(wèn)答的自定義數(shù)據(jù)集，并使用 Amazon SageMaker Studio 進(jìn)行了微調(diào)。

2. 存儲(chǔ)：經(jīng)過(guò)調(diào)優(yōu)的小語(yǔ)言模型存儲(chǔ)在 Amazon Simple Storage Service (Amazon S3) 中。

3. 初始部署：小語(yǔ)言模型最初部署到基于 Ubuntu 的 Amazon EC2 實(shí)例。

4. 開(kāi)發(fā)和優(yōu)化：團(tuán)隊(duì)在 EC2 實(shí)例上開(kāi)發(fā)并測(cè)試了生成式 AI 應(yīng)用，使用 llama.cpp 進(jìn)行小語(yǔ)言模型量化，并應(yīng)用了 Q4_0 方案。KleidiAI 優(yōu)化預(yù)先集成了 llama.cpp。與此同時(shí)，模型還實(shí)現(xiàn)了大幅壓縮，將文件大小從 3.8 GB 減少至 607 MB。

5. 虛擬測(cè)試：將應(yīng)用和小語(yǔ)言模型傳輸?shù)?nbsp;Arm 虛擬硬件的虛擬樹(shù)莓派環(huán)境進(jìn)行初始測(cè)試。

6. 虛擬驗(yàn)證：在虛擬樹(shù)莓派設(shè)備中進(jìn)行全面測(cè)試，以確保功能正常。

7. 邊緣側(cè)部署：通過(guò)使用 AWS IoT Greengrass Lite，將生成式 AI 應(yīng)用和小語(yǔ)言模型部署到物理樹(shù)莓派設(shè)備，并利用 AWS IoT Core 作業(yè)進(jìn)行部署管理。

8. 部署編排：AWS IoT Core 負(fù)責(zé)管理部署到邊緣側(cè)樹(shù)莓派設(shè)備的任務(wù)。

9. 安裝過(guò)程：AWS IoT Greengrass Lite 處理從 Amazon S3 下載的軟件包，并自動(dòng)完成安裝。

10. 用戶界面：已部署的應(yīng)用在邊緣側(cè)樹(shù)莓派設(shè)備上為最終用戶提供基于語(yǔ)音的交互功能。

11. 質(zhì)量監(jiān)控：生成式 AI 應(yīng)用實(shí)現(xiàn)對(duì)用戶交互的質(zhì)量監(jiān)控。數(shù)據(jù)通過(guò) AWS IoT Core 收集，并通過(guò) Amazon Kinesis Data Streams 和 Amazon Data Firehose 處理，然后存儲(chǔ)到 Amazon S3。整車廠可通過(guò) Amazon QuickSight 儀表板來(lái)監(jiān)控和分析數(shù)據(jù)，及時(shí)發(fā)現(xiàn)并解決任何小語(yǔ)言模型質(zhì)量問(wèn)題。

接下來(lái)將深入探討 KleidiAI 及該演示采用的量化方案。

Arm KleidiAI

Arm KleidiAI 是專為 AI 框架開(kāi)發(fā)者設(shè)計(jì)的開(kāi)源庫(kù)。它為 Arm CPU 提供經(jīng)過(guò)優(yōu)化的性能關(guān)鍵例程。該開(kāi)源庫(kù)最初于 2024 年 5 月推出，現(xiàn)在可為各種數(shù)據(jù)類型的矩陣乘法提供優(yōu)化，包括 32 位浮點(diǎn)、Bfloat16 和 4 位定點(diǎn)等超低精度格式。這些優(yōu)化支持多項(xiàng) Arm CPU 技術(shù)，比如用于 8 位計(jì)算的 SDOT 和 i8mm，以及用于 32 位浮點(diǎn)運(yùn)算的 MLA。

憑借四個(gè) Arm Cortex-A76 核心，樹(shù)莓派 5 演示使用了 KleidiAI 的 SDOT 優(yōu)化，SDOT 是最早為基于 Arm CPU 的 AI 工作負(fù)載設(shè)計(jì)的指令之一，它在 2016 年發(fā)布的 Armv8.2-A 中推出。

SDOT 指令也顯示了 Arm 持續(xù)致力于提高 CPU 上的 AI 性能。繼 SDOT 之后，Arm 針對(duì) CPU 上運(yùn)行 AI 逐步推出了新指令，比如用于更高效 8 位矩陣乘法的 i8mm 和 Bfloat16 支持，以期提高 32 位浮點(diǎn)性能，同時(shí)減半內(nèi)存使用。

對(duì)于使用樹(shù)莓派 5 進(jìn)行的演示，通過(guò)按塊量化方案，利用整數(shù) 4 位量化（也稱為 llama.cpp 中的 Q4_0）來(lái)加速矩陣乘法，KleidiAI 扮演關(guān)鍵作用。

llama.cpp 中的 Q4_0 量化格式

llama.cpp 中的 Q4_0 矩陣乘法包含以下組成部分：

· 左側(cè) (LHS) 矩陣，以 32 位浮點(diǎn)值的形式存儲(chǔ)激活內(nèi)容。

· 右側(cè) (RHS) 矩陣，包含 4 位定點(diǎn)格式的權(quán)重。在該格式中，量化尺度應(yīng)用于由 32 個(gè)連續(xù)整數(shù) 4 位值構(gòu)成的數(shù)據(jù)塊，并使用 16 位浮點(diǎn)值進(jìn)行編碼。

因此，當(dāng)提到 4 位整數(shù)矩陣乘法時(shí)，它特指用于權(quán)重的格式，如下圖所示：

在這個(gè)階段，LHS 和 RHS 矩陣均不是 8 位格式，KleidiAI 如何利用專為 8 位整數(shù)點(diǎn)積設(shè)計(jì)的 SDOT 指令？這兩個(gè)輸入矩陣都必須轉(zhuǎn)換為 8 位整數(shù)值。

對(duì)于 LHS 矩陣，在矩陣乘法例程之前，還需要一個(gè)額外的步驟：動(dòng)態(tài)量化為 8 位定點(diǎn)格式。該過(guò)程使用按塊量化方案將 LHS 矩陣動(dòng)態(tài)量化為 8 位，其中，量化尺度應(yīng)用于由 32 個(gè)連續(xù) 8 位整數(shù)值構(gòu)成的數(shù)據(jù)塊，并以 16 位浮點(diǎn)值的形式存儲(chǔ)，這與 4 位量化方法類似。

動(dòng)態(tài)量化可最大限度降低準(zhǔn)確性下降的風(fēng)險(xiǎn)，因?yàn)榱炕叨纫蜃邮窃谕评頃r(shí)根據(jù)每個(gè)數(shù)據(jù)塊中的最小值和最大值計(jì)算得出的。與該方法形成對(duì)比的是，靜態(tài)量化的尺度因子是預(yù)先確定的，保持不變。

對(duì)于 RHS 矩陣，在矩陣乘法例程之前，無(wú)需額外步驟。事實(shí)上，4 位量化充當(dāng)壓縮格式，而實(shí)際計(jì)算是以 8 位進(jìn)行的。因此，在將 4 位值傳遞給點(diǎn)積指令之前，首先將其轉(zhuǎn)換為 8 位。從 4 位轉(zhuǎn)換為 8 位的計(jì)算成本并不高，因?yàn)橹恍柽M(jìn)行簡(jiǎn)單的移位/掩碼運(yùn)算即可。

既然轉(zhuǎn)換效率如此高，為什么不直接使用 8 位，省去轉(zhuǎn)換的麻煩？

使用 4 位量化有兩個(gè)關(guān)鍵優(yōu)勢(shì)：

· 縮小模型尺寸：由于 4 位值所需的內(nèi)存只有 8 位值的一半，因此這對(duì)可用 RAM 有限的平臺(tái)尤其有益。

· 提升文本生成性能：文本生成過(guò)程依賴于一系列矩陣向量運(yùn)算，這些運(yùn)算通常受內(nèi)存限制。也就是說(shuō)，性能受限于內(nèi)存和處理器之間的數(shù)據(jù)傳輸速度，而不是處理器的計(jì)算能力。由于內(nèi)存帶寬是一個(gè)限制因素，縮小數(shù)據(jù)大小可最大限度減少內(nèi)存流量，從而顯著提高性能。

如何結(jié)合使用 KleidiAI 與 llama.cpp？

非常簡(jiǎn)單，KleidiAI 已集成到 llama.cpp 中。因此，開(kāi)發(fā)者不需要額外的依賴項(xiàng)就能充分發(fā)揮 Armv8.2 及更新架構(gòu)版本的 Arm CPU 性能。

兩者的集成意味著，在移動(dòng)設(shè)備、嵌入式計(jì)算平臺(tái)和基于 Arm 架構(gòu)處理器的服務(wù)器上運(yùn)行 llama.cpp 的開(kāi)發(fā)者，現(xiàn)在可以體驗(yàn)到更好的性能。

除了 llama.cpp，還有其他選擇嗎？

對(duì)于在 Arm CPU 上運(yùn)行大語(yǔ)言模型，雖然 llama.cpp 是一個(gè)很好的選擇，但開(kāi)發(fā)者也可以使用其他采用了 KleidiAI 優(yōu)化的高性能生成式 AI 框架。例如（按首字母順序排列）：ExecuTorch、MediaPipe、MNN 和 PyTorch。只需選擇最新版本的框架即可。

因此，如果開(kāi)發(fā)者正考慮在 Arm CPU 上部署生成式 AI 模型，探索以上框架有助于實(shí)現(xiàn)性能和效率的優(yōu)化。

總結(jié)

SDV 和生成式 AI 的融合，正在共同開(kāi)創(chuàng)一個(gè)新的汽車創(chuàng)新時(shí)代，使得未來(lái)的汽車變得更加智能化，更加以用戶為中心。文中介紹的車載生成式 AI 應(yīng)用演示由 Arm KleidiAI 進(jìn)行優(yōu)化并由 AWS 所提供的服務(wù)進(jìn)行支持，展示了新興技術(shù)如何幫助解決汽車行業(yè)的實(shí)際挑戰(zhàn)。該解決方案可實(shí)現(xiàn) 1 至 3 秒的響應(yīng)時(shí)間并將開(kāi)發(fā)時(shí)間縮短數(shù)周，證明更高效且離線可用的生成式 AI 應(yīng)用不僅能夠?qū)崿F(xiàn)，而且非常適合車載部署。

汽車技術(shù)的未來(lái)在于打造無(wú)縫融合邊緣計(jì)算、物聯(lián)網(wǎng)功能和 AI 的解決方案。隨著汽車不斷演變且軟件越來(lái)越復(fù)雜，潛在解決方案（比如本文介紹的解決方案）將成為彌合先進(jìn)汽車功能與用戶理解間差距的關(guān)鍵。

上一篇：動(dòng)態(tài)存儲(chǔ)重構(gòu)技術(shù)落地！意法半導(dǎo)體全球首發(fā)可編程車規(guī)MCU破解域控制器算力僵局

下一篇：深度解析電壓基準(zhǔn)補(bǔ)償在熱電偶冷端溫度補(bǔ)償中的應(yīng)用

特別推薦

噪聲中提取真值！瑞盟科技推出MSA2240電流檢測(cè)芯片賦能多元高端測(cè)量場(chǎng)景
10MHz高頻運(yùn)行！氮矽科技發(fā)布集成驅(qū)動(dòng)GaN芯片，助力電源能效再攀新高
失真度僅0.002%！力芯微推出超低內(nèi)阻、超低失真4PST模擬開(kāi)關(guān)
一“芯”雙電！圣邦微電子發(fā)布雙輸出電源芯片，簡(jiǎn)化AFE與音頻設(shè)計(jì)
一機(jī)適配萬(wàn)端：金升陽(yáng)推出1200W可編程電源，賦能高端裝備制造

技術(shù)文章更多>>

技術(shù)白皮書下載更多>>

熱門搜索

Arm攜手AWS助力實(shí)現(xiàn)AI定義汽車

友情鏈接(QQ：317243736)