NPU逆境淬鍊出的臺灣科技新星，劉峻誠的崛起之路

在全球 AI 產業快速轉向「算力競賽」的今天，多數人的目光集中在 GPU、資料中心與大型語言模型上。然而，在雲端巨型算力之外，另一條更貼近現實應用的 AI 路線正在成形，那就是邊緣 AI 與 NPU。

劉峻誠，耐能智慧 Kneron 創辦人，是臺灣少數從晶片架構、AI 演算法、終端應用到商業化落地都深度參與的科技創業者。他的故事不只是個人逆襲，也反映出臺灣在 AI 時代可能扮演的新角色：不只是替全球大廠製造晶片，而是有機會在 AI 處理器、邊緣運算與智慧裝置生態中，建立自己的技術話語權。

他曾經遭遇創業低谷、資金壓力、信任危機與市場質疑，但也正是在這些逆境中，劉峻誠更堅定了「勿忘初心」的信念。對他來說，AI 不是只能存在於雲端機房裡的昂貴技術，而應該走進每一台裝置、每一個工廠、每一台車、每一支手機、每一個家庭，成為真正普及化的智慧能力。

而要讓 AI 從雲端走向終端，NPU 正是關鍵。

從工程師到創業者，劉峻誠的技術底色

劉峻誠的科技之路，並不是從商業包裝開始，而是從扎實的工程訓練出發。他長期投入電機、半導體、影像處理與人工智慧相關技術，後來創立耐能智慧 Kneron，將重心放在邊緣 AI 晶片與 NPU 架構上。

與許多只追逐熱門題材的新創不同，Kneron 的核心思路很早就聚焦在一個問題：如果未來每個裝置都需要 AI，那麼每個裝置都不可能永遠依賴雲端 GPU。

因為雲端 AI 雖然強大，卻有幾個難以迴避的限制。

第一，延遲問題。影像辨識、工廠檢測、車用輔助、安防監控等場景，往往需要即時反應。如果所有資料都要先傳到雲端，再等待模型回傳結果，反應速度就可能不夠快。

第二，成本問題。雲端 GPU 的推論成本、頻寬成本、伺服器成本與維運成本都不低。對企業來說，當 AI 應用規模越大，每一次辨識、每一次推論都會累積成龐大的營運開銷。

第三，隱私問題。醫療影像、家庭攝影機、工廠機密、生產數據、車內資訊，都不適合無限制上傳雲端。若能在本地裝置完成 AI 推論，就能降低資料外流與法規風險。

第四，能源問題。大型 AI 模型與雲端資料中心消耗大量電力，而終端裝置通常受限於電池、散熱與空間。若要讓 AI 普及到手機、筆電、攝影機、機器人與 IoT 設備，就必須用更高效率的硬體執行 AI 任務。

這些問題，正是 NPU 存在的理由。

NPU 是什麼？為什麼它會成為 AI 普及化的關鍵？

NPU，全名是 Neural Processing Unit，中文常譯為神經網路處理器或神經處理單元。簡單來說，它是一種專門為 AI 神經網路運算設計的處理器。

如果用通俗比喻來說，CPU 像是萬能型主管，什麼工作都能做，但不一定每件事都做得最快；GPU 像是大量並行工作的重型卡車，適合圖形運算、矩陣運算與大規模平行處理；NPU 則像是專門為 AI 任務設計的高效率小客車，目標不是取代所有處理器，而是在特定 AI 推論場景中，以更低功耗、更低延遲、更高效率完成工作。

AI 模型在推論時，常常需要大量矩陣乘法、卷積運算、向量運算、啟動函數、資料搬移與量化處理。這些工作如果全部交給 CPU，效率通常不夠高；如果全部交給 GPU，雖然效能強，但功耗、成本與散熱可能不適合小型裝置。NPU 的價值就在於，它能把這些 AI 常見運算用硬體架構加速，讓模型在本地端更快、更省電地執行。

這也是為什麼近年手機、AI PC、智慧攝影機、車用晶片、工業電腦與邊緣伺服器都開始導入 NPU。AI 不再只是資料中心裡的大型模型，而是逐漸變成每一台裝置都能內建的能力。

NPU 的核心功用，讓 AI 真正落地

NPU 的最大價值，不在於跑出多漂亮的理論分數，而在於讓 AI 可以在現實場景中穩定運作。它的功用大致可以分成五個層面。

一、降低延遲，讓 AI 可以即時反應

很多 AI 應用並不能等待。例如工廠產線上的瑕疵檢測，產品一經過鏡頭，就要立刻判斷是否有裂痕、刮傷、缺件或尺寸異常；車用場景中，鏡頭偵測到行人、車道線或障礙物，也必須立即反應；智慧門鎖、門禁系統與監控攝影機，也需要即時辨識人臉、姿態或異常行為。

若這些資料全部送到雲端處理，網路延遲與連線不穩都可能造成風險。NPU 能讓模型直接在設備端運算，把反應時間壓低到更適合即時決策的範圍。

二、降低功耗，讓 AI 可以放進小型裝置

AI 若要走進手機、穿戴裝置、攝影機、機器人與筆電，就不能只追求高算力，還要考慮電池續航與散熱。GPU 適合高效能運算，但在許多終端場景中，功耗不一定划算。NPU 透過針對神經網路模型設計的硬體路徑，可以用更少能源完成相同或相近的推論工作。

這對 AI PC、智慧攝影機與邊緣 AI Box 特別重要。裝置不可能一直高功耗運轉，也不可能每一次 AI 任務都啟動大型 GPU。讓 NPU 處理常駐型、即時型、低功耗型 AI 任務，是更合理的系統設計。

三、保護隱私，讓資料留在本地

當 AI 應用進入家庭、醫療、金融、製造與公共安全場景，資料隱私會變得非常重要。舉例來說，家庭攝影機若要辨識小孩、長者或寵物，影像資料最好不要持續上傳雲端；醫療院所若要分析影像或病患資料，也必須符合隱私與合規要求；企業工廠的產線資料、瑕疵樣本與製程數據，更可能涉及商業機密。

NPU 讓 AI 推論在本地端完成，資料不必離開設備或內部網路。這種「資料在地化、智慧在地化」的模式，會是未來企業導入 AI 的重要方向。

四、降低雲端成本，讓 AI 應用可以規模化

當企業只是做小規模 AI 測試時，使用雲端 API 或 GPU 伺服器很方便。但一旦進入大量部署，每台設備、每支攝影機、每條產線、每個門市都需要 AI 推論，雲端成本就會快速放大。

NPU 的價值在於把部分推論任務下放到終端。雲端可以負責模型訓練、集中管理、版本更新與資料分析；本地設備則負責即時推論與第一線判斷。這種雲端與邊緣分工的架構，可以讓 AI 系統更穩定，也更容易控制成本。

五、提升系統分工效率

在現代裝置中，CPU、GPU、NPU 並不是互相取代，而是互相分工。CPU 負責系統流程、控制邏輯與一般運算；GPU 負責圖形渲染、大量平行運算或部分 AI 任務；NPU 則負責高頻率、低功耗、固定類型的 AI 推論。

例如一台 AI PC 可以讓 NPU 處理背景降噪、即時字幕、視訊人像修正、眼神校正與本地語音辨識，讓 CPU 保持流暢，GPU 則繼續處理遊戲、影音剪輯或 3D 工作。這種異質運算架構，正是未來裝置 AI 化的基礎。

NPU 的實際運用方法

談 NPU 不能只談晶片規格，更要談它如何被實際使用。一般來說，一個 AI 應用要落地到 NPU，大致會經過以下流程。

第一步：定義應用場景

企業首先要確認 AI 要解決什麼問題。是要做工廠瑕疵檢測？人臉辨識？車牌辨識？智慧門禁？語音喚醒？姿態偵測？還是本地端小型語言模型？

不同任務會對模型大小、延遲、準確率、功耗與成本有不同要求。NPU 最適合的場景通常是「需要大量部署、需要即時反應、需要低功耗、需要資料在地化」的應用。

第二步：選擇或訓練 AI 模型

接著要選擇適合的模型。例如影像辨識可以使用 CNN、YOLO 類模型或輕量化視覺模型；語音應用可以使用語音喚醒、語音辨識或聲紋辨識模型；文字應用則可能使用小型 Transformer、量化後的語言模型或特定任務模型。

這裡的關鍵不是模型越大越好，而是模型是否適合在 NPU 上跑。終端 AI 最重視的是效能、功耗、記憶體佔用與穩定性之間的平衡。

第三步：模型壓縮與量化

NPU 常見的部署方式會搭配模型量化，例如把 FP32 或 FP16 模型轉成 INT8，甚至更低位元的格式。量化的目的，是讓模型更小、更快、更省電，也更容易被 NPU 硬體加速。

但量化不是單純把數字變小。工程團隊需要測試量化後的準確率是否下降、哪些層會影響結果、是否需要重新校準資料集，甚至是否要做量化感知訓練。這也是 NPU 應用從實驗室走到產品時最關鍵的工程環節之一。

第四步：使用 SDK 或編譯器轉換模型

多數 NPU 廠商會提供 SDK、編譯器、runtime 或模型轉換工具。工程師通常會把 PyTorch、TensorFlow、ONNX 或 TFLite 模型轉換成 NPU 支援的格式，再透過廠商提供的推論引擎部署到裝置上。

這一步會決定模型能否有效吃到 NPU 加速。如果模型中有些運算不被 NPU 支援，就可能被迫回到 CPU 或 GPU 執行，造成效能瓶頸。因此，真正成熟的 NPU 解決方案不只是晶片，還必須包含完整的軟體工具鏈。

第五步：整合到終端設備

模型能在開發板上跑還不夠，最終還要整合到真實產品。例如攝影機需要處理影像串流、ISP、編碼、儲存與網路傳輸；工廠設備需要接入 PLC、MES 或 AOI 系統；車用設備要考慮溫度、震動、可靠性與長時間運作；AI PC 則要與作業系統、應用程式與驅動程式整合。

NPU 的商業價值，往往是在這個階段真正浮現。因為企業要的不是一顆晶片，而是一套能穩定導入產品、降低成本、提高效率的完整方案。

NPU 的代表性應用場景

智慧製造與 AOI 檢測

在工廠裡，NPU 可以用於瑕疵檢測、尺寸判斷、異物辨識、設備狀態監控與工安偵測。傳統 AOI 系統常需要大量規則設定，面對複雜瑕疵時彈性有限；導入 AI 模型後，系統可以學習不同瑕疵特徵，提高檢測效率。

若使用 NPU 在本地端推論，產線資料不必上雲，判斷速度也更快，適合高頻率、大量影像的製造場景。

智慧安防與城市管理

智慧攝影機是 NPU 最直接的應用之一。它可以做人形偵測、人流統計、車牌辨識、跌倒偵測、入侵警示、危險區域偵測與異常行為分析。

過去攝影機多半只是錄影設備，真正分析要靠後端伺服器。導入 NPU 後，攝影機本身就能先做第一層判斷，只把必要事件傳回後台，降低頻寬與儲存壓力。

AI PC 與個人裝置

AI PC 的興起讓 NPU 進入一般消費者視野。未來筆電可以在本地執行更多 AI 功能，例如視訊會議背景模糊、眼神校正、即時字幕、語音降噪、文件摘要、圖片搜尋、個人助理與本地知識庫查詢。

這些功能若全部依賴雲端，不只會增加延遲，也會帶來隱私與成本問題。NPU 則能讓許多日常 AI 功能常駐在裝置端，以更省電的方式持續運作。

車用與機器人

車用 AI 與機器人都需要即時感知環境。攝影機、雷達、感測器收集到的資料，必須快速轉換成判斷結果，例如辨識行人、障礙物、標誌、車道線、手勢或物品位置。

NPU 適合放在車載系統、機器人控制盒或邊緣運算模組中，協助設備在沒有穩定雲端連線的情況下仍能運作。對未來的服務型機器人、工業機器人、自動搬運車與智慧座艙而言，NPU 會是重要的運算核心之一。

私有化 AI 與企業邊緣伺服器

除了小型裝置，NPU 也可以進入邊緣伺服器。對企業來說，不是所有 AI 都適合放到公有雲。金融、醫療、製造、政府與教育單位，往往更希望建立私有 AI 系統。

NPU 邊緣伺服器可以用來處理企業內部文件問答、影像分析、語音轉文字、內部知識庫、門禁安防與產線資料分析。它的定位不是取代大型 GPU 叢集，而是用更低成本、更低功耗的方式處理大量本地推論需求。

劉峻誠與 Kneron 的意義，臺灣不只做代工，也能做 AI 架構

劉峻誠的創業故事之所以值得被放大，不只是因為他經歷過低谷，也不是因為他站上 AI 浪潮，而是因為他的路線代表臺灣科技產業一個重要轉向。

過去臺灣在全球半導體供應鏈中，最被看見的是製造、封裝、測試、IC 設計服務、主機板、伺服器、PCB 與零組件。但在 AI 時代，只做硬體製造已經不夠。真正有價值的是把晶片、模型、軟體工具鏈、終端應用與產業需求整合起來。

NPU 正好處在這個交會點。它不是單純的晶片，也不是單純的演算法，而是 AI 模型要進入真實世界時不可或缺的基礎設施。誰能掌握 NPU 架構、模型部署、SDK、生態合作與量產能力，誰就有機會在邊緣 AI 時代取得主導權。

對臺灣來說，這是一個重要機會。臺灣有完整的半導體供應鏈，有硬體製造能力，有伺服器與工業電腦產業，也有大量中小企業需要 AI 升級。如果能把這些優勢與本土 AI 晶片、NPU 架構、邊緣 AI 平台結合，臺灣就不只是 AI 伺服器供應鏈的一環，也可能成為終端 AI 普及化的重要推手。

逆境中的「勿忘初心」

劉峻誠的故事中，最有力量的部分不是他掌握了多先進的技術，而是他在逆境中仍然選擇回到技術與產品的本質。

創業者最容易迷失的時候，通常不是公司一開始很小的時候，而是面臨資金壓力、市場質疑、團隊動盪與競爭者包圍的時候。當外界都在追逐熱門名詞，創業者是否還記得自己最初想解決的問題，往往決定了公司能不能走得長遠。

「勿忘初心」對劉峻誠而言，不只是勵志標語，而是一種技術信仰：AI 應該普及，AI 應該更便宜、更省電、更安全，也應該能真正進入每一個產業現場。

這也是 NPU 的精神。它不是為了在雲端巨型算力競賽中與 GPU 正面硬碰硬，而是要解決更廣泛、更實際的問題：如何讓 AI 在沒有巨大資料中心、沒有高昂電費、沒有穩定網路、沒有無限預算的情況下，仍然能被使用。

QA

1個NPU等於1FP4 AI TOPS嗎?

不是，1 個 NPU 不等於 1 FP4 AI TOPS。

比較正確的理解是：

NPU 是硬體單元；TOPS 是效能單位；FP4 是資料精度格式。

可以拆成這樣：

名詞	意思
NPU	Neural Processing Unit，專門跑 AI 推論的處理器
TOPS	Trillions of Operations Per Second，每秒兆次運算，是效能指標
AI TOPS	用在 AI 工作負載上的 TOPS，通常指理想峰值推論效能
FP4	4-bit floating point，低精度浮點格式，常用來提高 AI 推論吞吐量

所以正確講法會是：

這顆 NPU 在 FP4 精度下，可達到 XX AI TOPS。

而不是：

1 個 NPU = 1 FP4 AI TOPS。

舉例來說，同樣叫 NPU，不同產品效能差很多：

裝置 / 晶片	NPU 效能可能標示
入門 AI PC NPU	10～20 TOPS
Copilot+ PC 等級 NPU	約 40～50 TOPS
高階行動 SoC NPU	數十 TOPS
資料中心 AI 加速器	可能是數千到數萬 TOPS

Qualcomm 對 TOPS 的定義是：TOPS 是衡量處理器或 NPU 潛在 AI 推論峰值效能的指標，也就是硬體在特定架構與頻率下理論上每秒可執行多少兆次操作。

另外要注意，TOPS 會因精度不同而改變。同一顆 AI 晶片：

精度	通常情況
FP16	精度高，但 TOPS / FLOPS 較低
INT8	邊緣 AI、NPU 常見標示
INT4 / FP4	位元更低，理論吞吐量可能更高
FP4	NVIDIA Blackwell 等新一代 AI 架構常強調，用於提高生成式 AI 推論效率

所以你可以把它理解成：

NPU 是引擎，TOPS 是馬力，FP4 是使用的運算格式。

如果文章要寫得專業一點，可以這樣表述：

NPU 並不是一個固定等於多少 TOPS 的單位，而是一種專為 AI 神經網路運算設計的處理器。其效能通常以 TOPS 表示，並會依 INT8、INT4、FP8、FP4 等不同資料精度而有所差異。例如同一顆 AI 加速器，在 FP4 或 INT4 低精度模式下，理論 TOPS 通常會高於 FP16 或 INT8，但實際效能仍取決於模型架構、記憶體頻寬、軟體編譯器與是否能完整吃到 NPU 加速。