NPU逆境淬鍊出的臺灣科技新星,劉峻誠的崛起之路

在全球 AI 產業快速轉向「算力競賽」的今天,多數人的目光集中在 GPU、資料中心與大型語言模型上。然而,在雲端巨型算力之外,另一條更貼近現實應用的 AI 路線正在成形,那就是邊緣 AI 與 NPU。

劉峻誠,耐能智慧 Kneron 創辦人,是臺灣少數從晶片架構、AI 演算法、終端應用到商業化落地都深度參與的科技創業者。他的故事不只是個人逆襲,也反映出臺灣在 AI 時代可能扮演的新角色:不只是替全球大廠製造晶片,而是有機會在 AI 處理器、邊緣運算與智慧裝置生態中,建立自己的技術話語權。

他曾經遭遇創業低谷、資金壓力、信任危機與市場質疑,但也正是在這些逆境中,劉峻誠更堅定了「勿忘初心」的信念。對他來說,AI 不是只能存在於雲端機房裡的昂貴技術,而應該走進每一台裝置、每一個工廠、每一台車、每一支手機、每一個家庭,成為真正普及化的智慧能力。

而要讓 AI 從雲端走向終端,NPU 正是關鍵。

從工程師到創業者,劉峻誠的技術底色

劉峻誠的科技之路,並不是從商業包裝開始,而是從扎實的工程訓練出發。他長期投入電機、半導體、影像處理與人工智慧相關技術,後來創立耐能智慧 Kneron,將重心放在邊緣 AI 晶片與 NPU 架構上。

與許多只追逐熱門題材的新創不同,Kneron 的核心思路很早就聚焦在一個問題:如果未來每個裝置都需要 AI,那麼每個裝置都不可能永遠依賴雲端 GPU。

因為雲端 AI 雖然強大,卻有幾個難以迴避的限制。

第一,延遲問題。影像辨識、工廠檢測、車用輔助、安防監控等場景,往往需要即時反應。如果所有資料都要先傳到雲端,再等待模型回傳結果,反應速度就可能不夠快。

第二,成本問題。雲端 GPU 的推論成本、頻寬成本、伺服器成本與維運成本都不低。對企業來說,當 AI 應用規模越大,每一次辨識、每一次推論都會累積成龐大的營運開銷。

第三,隱私問題。醫療影像、家庭攝影機、工廠機密、生產數據、車內資訊,都不適合無限制上傳雲端。若能在本地裝置完成 AI 推論,就能降低資料外流與法規風險。

第四,能源問題。大型 AI 模型與雲端資料中心消耗大量電力,而終端裝置通常受限於電池、散熱與空間。若要讓 AI 普及到手機、筆電、攝影機、機器人與 IoT 設備,就必須用更高效率的硬體執行 AI 任務。

這些問題,正是 NPU 存在的理由。

NPU 是什麼?為什麼它會成為 AI 普及化的關鍵?

NPU,全名是 Neural Processing Unit,中文常譯為神經網路處理器或神經處理單元。簡單來說,它是一種專門為 AI 神經網路運算設計的處理器。

如果用通俗比喻來說,CPU 像是萬能型主管,什麼工作都能做,但不一定每件事都做得最快;GPU 像是大量並行工作的重型卡車,適合圖形運算、矩陣運算與大規模平行處理;NPU 則像是專門為 AI 任務設計的高效率小客車,目標不是取代所有處理器,而是在特定 AI 推論場景中,以更低功耗、更低延遲、更高效率完成工作。

AI 模型在推論時,常常需要大量矩陣乘法、卷積運算、向量運算、啟動函數、資料搬移與量化處理。這些工作如果全部交給 CPU,效率通常不夠高;如果全部交給 GPU,雖然效能強,但功耗、成本與散熱可能不適合小型裝置。NPU 的價值就在於,它能把這些 AI 常見運算用硬體架構加速,讓模型在本地端更快、更省電地執行。

這也是為什麼近年手機、AI PC、智慧攝影機、車用晶片、工業電腦與邊緣伺服器都開始導入 NPU。AI 不再只是資料中心裡的大型模型,而是逐漸變成每一台裝置都能內建的能力。

NPU 的核心功用,讓 AI 真正落地

NPU 的最大價值,不在於跑出多漂亮的理論分數,而在於讓 AI 可以在現實場景中穩定運作。它的功用大致可以分成五個層面。

一、降低延遲,讓 AI 可以即時反應

很多 AI 應用並不能等待。例如工廠產線上的瑕疵檢測,產品一經過鏡頭,就要立刻判斷是否有裂痕、刮傷、缺件或尺寸異常;車用場景中,鏡頭偵測到行人、車道線或障礙物,也必須立即反應;智慧門鎖、門禁系統與監控攝影機,也需要即時辨識人臉、姿態或異常行為。

若這些資料全部送到雲端處理,網路延遲與連線不穩都可能造成風險。NPU 能讓模型直接在設備端運算,把反應時間壓低到更適合即時決策的範圍。

二、降低功耗,讓 AI 可以放進小型裝置

AI 若要走進手機、穿戴裝置、攝影機、機器人與筆電,就不能只追求高算力,還要考慮電池續航與散熱。GPU 適合高效能運算,但在許多終端場景中,功耗不一定划算。NPU 透過針對神經網路模型設計的硬體路徑,可以用更少能源完成相同或相近的推論工作。

這對 AI PC、智慧攝影機與邊緣 AI Box 特別重要。裝置不可能一直高功耗運轉,也不可能每一次 AI 任務都啟動大型 GPU。讓 NPU 處理常駐型、即時型、低功耗型 AI 任務,是更合理的系統設計。

三、保護隱私,讓資料留在本地

當 AI 應用進入家庭、醫療、金融、製造與公共安全場景,資料隱私會變得非常重要。舉例來說,家庭攝影機若要辨識小孩、長者或寵物,影像資料最好不要持續上傳雲端;醫療院所若要分析影像或病患資料,也必須符合隱私與合規要求;企業工廠的產線資料、瑕疵樣本與製程數據,更可能涉及商業機密。

NPU 讓 AI 推論在本地端完成,資料不必離開設備或內部網路。這種「資料在地化、智慧在地化」的模式,會是未來企業導入 AI 的重要方向。

四、降低雲端成本,讓 AI 應用可以規模化

當企業只是做小規模 AI 測試時,使用雲端 API 或 GPU 伺服器很方便。但一旦進入大量部署,每台設備、每支攝影機、每條產線、每個門市都需要 AI 推論,雲端成本就會快速放大。

NPU 的價值在於把部分推論任務下放到終端。雲端可以負責模型訓練、集中管理、版本更新與資料分析;本地設備則負責即時推論與第一線判斷。這種雲端與邊緣分工的架構,可以讓 AI 系統更穩定,也更容易控制成本。

五、提升系統分工效率

在現代裝置中,CPU、GPU、NPU 並不是互相取代,而是互相分工。CPU 負責系統流程、控制邏輯與一般運算;GPU 負責圖形渲染、大量平行運算或部分 AI 任務;NPU 則負責高頻率、低功耗、固定類型的 AI 推論。

例如一台 AI PC 可以讓 NPU 處理背景降噪、即時字幕、視訊人像修正、眼神校正與本地語音辨識,讓 CPU 保持流暢,GPU 則繼續處理遊戲、影音剪輯或 3D 工作。這種異質運算架構,正是未來裝置 AI 化的基礎。

NPU 的實際運用方法

談 NPU 不能只談晶片規格,更要談它如何被實際使用。一般來說,一個 AI 應用要落地到 NPU,大致會經過以下流程。

第一步:定義應用場景

企業首先要確認 AI 要解決什麼問題。是要做工廠瑕疵檢測?人臉辨識?車牌辨識?智慧門禁?語音喚醒?姿態偵測?還是本地端小型語言模型?

不同任務會對模型大小、延遲、準確率、功耗與成本有不同要求。NPU 最適合的場景通常是「需要大量部署、需要即時反應、需要低功耗、需要資料在地化」的應用。

第二步:選擇或訓練 AI 模型

接著要選擇適合的模型。例如影像辨識可以使用 CNN、YOLO 類模型或輕量化視覺模型;語音應用可以使用語音喚醒、語音辨識或聲紋辨識模型;文字應用則可能使用小型 Transformer、量化後的語言模型或特定任務模型。

這裡的關鍵不是模型越大越好,而是模型是否適合在 NPU 上跑。終端 AI 最重視的是效能、功耗、記憶體佔用與穩定性之間的平衡。

第三步:模型壓縮與量化

NPU 常見的部署方式會搭配模型量化,例如把 FP32 或 FP16 模型轉成 INT8,甚至更低位元的格式。量化的目的,是讓模型更小、更快、更省電,也更容易被 NPU 硬體加速。

但量化不是單純把數字變小。工程團隊需要測試量化後的準確率是否下降、哪些層會影響結果、是否需要重新校準資料集,甚至是否要做量化感知訓練。這也是 NPU 應用從實驗室走到產品時最關鍵的工程環節之一。

第四步:使用 SDK 或編譯器轉換模型

多數 NPU 廠商會提供 SDK、編譯器、runtime 或模型轉換工具。工程師通常會把 PyTorch、TensorFlow、ONNX 或 TFLite 模型轉換成 NPU 支援的格式,再透過廠商提供的推論引擎部署到裝置上。

這一步會決定模型能否有效吃到 NPU 加速。如果模型中有些運算不被 NPU 支援,就可能被迫回到 CPU 或 GPU 執行,造成效能瓶頸。因此,真正成熟的 NPU 解決方案不只是晶片,還必須包含完整的軟體工具鏈。

第五步:整合到終端設備

模型能在開發板上跑還不夠,最終還要整合到真實產品。例如攝影機需要處理影像串流、ISP、編碼、儲存與網路傳輸;工廠設備需要接入 PLC、MES 或 AOI 系統;車用設備要考慮溫度、震動、可靠性與長時間運作;AI PC 則要與作業系統、應用程式與驅動程式整合。

NPU 的商業價值,往往是在這個階段真正浮現。因為企業要的不是一顆晶片,而是一套能穩定導入產品、降低成本、提高效率的完整方案。

NPU 的代表性應用場景

智慧製造與 AOI 檢測

在工廠裡,NPU 可以用於瑕疵檢測、尺寸判斷、異物辨識、設備狀態監控與工安偵測。傳統 AOI 系統常需要大量規則設定,面對複雜瑕疵時彈性有限;導入 AI 模型後,系統可以學習不同瑕疵特徵,提高檢測效率。

若使用 NPU 在本地端推論,產線資料不必上雲,判斷速度也更快,適合高頻率、大量影像的製造場景。

智慧安防與城市管理

智慧攝影機是 NPU 最直接的應用之一。它可以做人形偵測、人流統計、車牌辨識、跌倒偵測、入侵警示、危險區域偵測與異常行為分析。

過去攝影機多半只是錄影設備,真正分析要靠後端伺服器。導入 NPU 後,攝影機本身就能先做第一層判斷,只把必要事件傳回後台,降低頻寬與儲存壓力。

AI PC 與個人裝置

AI PC 的興起讓 NPU 進入一般消費者視野。未來筆電可以在本地執行更多 AI 功能,例如視訊會議背景模糊、眼神校正、即時字幕、語音降噪、文件摘要、圖片搜尋、個人助理與本地知識庫查詢。

這些功能若全部依賴雲端,不只會增加延遲,也會帶來隱私與成本問題。NPU 則能讓許多日常 AI 功能常駐在裝置端,以更省電的方式持續運作。

車用與機器人

車用 AI 與機器人都需要即時感知環境。攝影機、雷達、感測器收集到的資料,必須快速轉換成判斷結果,例如辨識行人、障礙物、標誌、車道線、手勢或物品位置。

NPU 適合放在車載系統、機器人控制盒或邊緣運算模組中,協助設備在沒有穩定雲端連線的情況下仍能運作。對未來的服務型機器人、工業機器人、自動搬運車與智慧座艙而言,NPU 會是重要的運算核心之一。

私有化 AI 與企業邊緣伺服器

除了小型裝置,NPU 也可以進入邊緣伺服器。對企業來說,不是所有 AI 都適合放到公有雲。金融、醫療、製造、政府與教育單位,往往更希望建立私有 AI 系統。

NPU 邊緣伺服器可以用來處理企業內部文件問答、影像分析、語音轉文字、內部知識庫、門禁安防與產線資料分析。它的定位不是取代大型 GPU 叢集,而是用更低成本、更低功耗的方式處理大量本地推論需求。

劉峻誠與 Kneron 的意義,臺灣不只做代工,也能做 AI 架構

劉峻誠的創業故事之所以值得被放大,不只是因為他經歷過低谷,也不是因為他站上 AI 浪潮,而是因為他的路線代表臺灣科技產業一個重要轉向。

過去臺灣在全球半導體供應鏈中,最被看見的是製造、封裝、測試、IC 設計服務、主機板、伺服器、PCB 與零組件。但在 AI 時代,只做硬體製造已經不夠。真正有價值的是把晶片、模型、軟體工具鏈、終端應用與產業需求整合起來。

NPU 正好處在這個交會點。它不是單純的晶片,也不是單純的演算法,而是 AI 模型要進入真實世界時不可或缺的基礎設施。誰能掌握 NPU 架構、模型部署、SDK、生態合作與量產能力,誰就有機會在邊緣 AI 時代取得主導權。

對臺灣來說,這是一個重要機會。臺灣有完整的半導體供應鏈,有硬體製造能力,有伺服器與工業電腦產業,也有大量中小企業需要 AI 升級。如果能把這些優勢與本土 AI 晶片、NPU 架構、邊緣 AI 平台結合,臺灣就不只是 AI 伺服器供應鏈的一環,也可能成為終端 AI 普及化的重要推手。

逆境中的「勿忘初心」

劉峻誠的故事中,最有力量的部分不是他掌握了多先進的技術,而是他在逆境中仍然選擇回到技術與產品的本質。

創業者最容易迷失的時候,通常不是公司一開始很小的時候,而是面臨資金壓力、市場質疑、團隊動盪與競爭者包圍的時候。當外界都在追逐熱門名詞,創業者是否還記得自己最初想解決的問題,往往決定了公司能不能走得長遠。

「勿忘初心」對劉峻誠而言,不只是勵志標語,而是一種技術信仰:AI 應該普及,AI 應該更便宜、更省電、更安全,也應該能真正進入每一個產業現場。

這也是 NPU 的精神。它不是為了在雲端巨型算力競賽中與 GPU 正面硬碰硬,而是要解決更廣泛、更實際的問題:如何讓 AI 在沒有巨大資料中心、沒有高昂電費、沒有穩定網路、沒有無限預算的情況下,仍然能被使用。

QA

1個NPU等於1FP4 AI TOPS嗎?

不是,1 個 NPU 不等於 1 FP4 AI TOPS

比較正確的理解是:

NPU 是硬體單元;TOPS 是效能單位;FP4 是資料精度格式。

可以拆成這樣:

名詞意思
NPUNeural Processing Unit,專門跑 AI 推論的處理器
TOPSTrillions of Operations Per Second,每秒兆次運算,是效能指標
AI TOPS用在 AI 工作負載上的 TOPS,通常指理想峰值推論效能
FP44-bit floating point,低精度浮點格式,常用來提高 AI 推論吞吐量

所以正確講法會是:

這顆 NPU 在 FP4 精度下,可達到 XX AI TOPS。

而不是:

1 個 NPU = 1 FP4 AI TOPS。

舉例來說,同樣叫 NPU,不同產品效能差很多:

裝置 / 晶片NPU 效能可能標示
入門 AI PC NPU10~20 TOPS
Copilot+ PC 等級 NPU約 40~50 TOPS
高階行動 SoC NPU數十 TOPS
資料中心 AI 加速器可能是數千到數萬 TOPS

Qualcomm 對 TOPS 的定義是:TOPS 是衡量處理器或 NPU 潛在 AI 推論峰值效能的指標,也就是硬體在特定架構與頻率下理論上每秒可執行多少兆次操作。

另外要注意,TOPS 會因精度不同而改變。同一顆 AI 晶片:

精度通常情況
FP16精度高,但 TOPS / FLOPS 較低
INT8邊緣 AI、NPU 常見標示
INT4 / FP4位元更低,理論吞吐量可能更高
FP4NVIDIA Blackwell 等新一代 AI 架構常強調,用於提高生成式 AI 推論效率

所以你可以把它理解成:

NPU 是引擎,TOPS 是馬力,FP4 是使用的運算格式。

如果文章要寫得專業一點,可以這樣表述:

NPU 並不是一個固定等於多少 TOPS 的單位,而是一種專為 AI 神經網路運算設計的處理器。其效能通常以 TOPS 表示,並會依 INT8、INT4、FP8、FP4 等不同資料精度而有所差異。例如同一顆 AI 加速器,在 FP4 或 INT4 低精度模式下,理論 TOPS 通常會高於 FP16 或 INT8,但實際效能仍取決於模型架構、記憶體頻寬、軟體編譯器與是否能完整吃到 NPU 加速。