Perplexity 推出混合推論引擎，敏感資料留本地、複雜推理走雲端

Perplexity 在 Computex 2026 推出「混合智慧推論架構」，能在使用者裝置與雲端之間自動切換 AI 運算負載，敏感資料留本地、複雜推理走雲端，隱私與成本同時兼顧。Intel 執行長 Lip-Bu Tan 同臺站臺，獨家搭載 Intel Core Ultra Series 3。
（前情提要：Perplexity AI 估值飆升至 180 億美元！最新一輪募資 5 億美元）
（背景補充：Computex 2026 直擊：Intel 發表新一代 AI PC 晶片 Core Ultra Series 3）

本文目錄

Toggle

什麼是混合智慧推論？
隱私與成本的雙重考量
誰也在做這件事？
AI 產業的分水嶺

即使是搜尋引擎也能轉型，Perplexity 創辦人暨執行長 Aravind Srinivas 於 6 月 2 日在 Computex 2026 臺北南港展覽館，與 Intel 執行長 Lip-Bu Tan 同臺宣布業界首款「混合本地－伺服器推論協調器」（hybrid local-server inference orchestrator）。這套系統將於今年 7 月登陸 Perplexity Computer，首波僅支援 Windows PC 應用程式，展示機搭載 Intel Core Ultra Series 3 處理器。

什麼是混合智慧推論？

Perplexity 的「混合智慧推論」（hybrid agentic inference）核心思路是一套自動化路由機制：一個輕量級模型常駐在使用者裝置上，充當「交通警察」的角色，根據任務性質即時判斷哪些工作可以在本地完成、哪些必須送往雲端的前沿模型處理。

官方說明指出：「混合智慧推論適用於包含敏感資料但需要強大 AI 的工作，例如財務記錄、健康資訊與個人檔案。輕量模型在本地裝置上執行，判斷何時敏感資料應該保留在本地；同時，需要前沿模型完整能力的任務則送往伺服器端執行。」

Perplexity 在官方公告中寫道：「AI 系統的正確目標，是為每位使用者提供每個瓦特最高的 token 價值。」三個互相衝突的壓力讓這件事難以達成：準確性要求最強的模型、隱私要求部分資料不得離開裝置、成本則要求不要把前沿模型的算力浪費在簡單任務上。

簡單任務，如摘要已寫好的檔案、格式化文字、輕量級分類，在本地執行。複雜推理則路由到雲端，理想情況下敏感部分不會隨之附帶。Perplexity 強調這一切都在任務中途自動發生，對使用者完全透明。至於實際體驗是否如 Computex 展示般流暢，7 月正式上線後才見真章。

隱私與成本的雙重考量

Srinivas 在 Computex 期間接受 Bloomberg Television 專訪時直言不諱：「你不希望所有運算都集中在伺服器上、所有任務都用最大模型跑。有些公司一個月花費五億美元。你真正想要的是每位使用者、每個瓦特的效率價值。」將推論工作分流到使用者硬體上，直接降低了 Perplexity 的營運帳單。

這個時間點的財務背景值得一提。Srinivas 在今年 4 月揭露，Perplexity 營收已從 1 億美元成長至 5 億美元（5 倍成長），但員工人數僅增加 34%。一家在不同模型間路由查詢、本身不訓練模型的公司，有極強動機將運算成本壓到最低。將部分推論負擔轉移到使用者裝置上，全球已有數十億臺 PC，是達成此目標的有效手段。隱私訴求是真實的，但恰好與財務訴求方向一致。

需要釐清的是：這不是 Perplexity 提供一個你可以完全掌控的開源本地模型。本地元件是 Perplexity 部署在其應用程式內的輕量模型，雲端元件仍然透過 Perplexity 的伺服器路由。想要完全離線、自我託管的使用者，例如 MiniCPM5-1B 這類專案，在這裡找不到解答。

誰也在做這件事？

Perplexity 並非唯一朝混合推論方向前進的公司。各大科技巨頭以不同技術路線切入：

Apple Intelligence（M 系列晶片）：Apple 的裝置端 AI 架構利用自研 M 系列晶片的統一記憶體與神經引擎，將大量推論工作放在裝置上完成，必要時才呼叫雲端模型。Apple 的優勢在於硬體軟體深度整合，但閉源生態限制了第三方開發者的靈活度。
Microsoft Foundry Local：微軟推出的本地 AI 推論框架，允許開發者在 Windows 裝置上部署小型語言模型，並與 Azure 雲端模型協作。與 Perplexity 最大的不同是 Foundry Local 是開發者工具，終端使用者不需手動配置。
Nvidia RTX Spark：Nvidia 利用 RTX GPU 的 Tensor Core 與 TensorRT-LLM 加速器，在消費級顯示卡上執行本地推論。主要鎖定創作者與開發者族群，而非一般消費者。
Google Gemini Nano：Google 的裝置端模型，搭載於 Pixel 手機與 ChromeOS 裝置上，專為輕量級 AI 任務設計。Gemini Nano 的覆蓋範圍僅限 Google 生態系。

Perplexity 的策略差異在於：它不擁有硬體、不訓練基礎模型、不鎖定特定生態系，它是一個純粹的「路由層」，在使用者裝置與各種雲端模型之間動態分配工作。這讓它在靈活性上有優勢，但也意味著它比 Apple 或 Google 更難控制端到端的使用者體驗品質。

AI 產業的分水嶺

Perplexity 的混合推論架構反映了 AI 產業正在經歷的結構性變化：從「所有推論都在雲端」的集中模式，轉向「本地＋雲端協同」的分散式模式。

驅動這個轉變的核心動力有兩個。第一個是隱私：隨著各國監管機構對資料跨境傳輸的限制越來越嚴格（歐盟 GDPR、臺灣個資法修法），讓敏感資料留在使用者裝置上不只是一項功能，更是合規的必要條件。第二個是成本：前沿模型的推論成本仍居高不下，將簡單任務分流到本地能顯著降低每查詢的平均成本。

對臺灣供應鏈而言，這個趨勢有兩層意義。硬體層面，混合推論需要更強大的本地運算能力，不只是 CPU，還包括 NPU、GPU 與統一記憶體架構。Intel 本次與 Perplexity 的合作以 Core Ultra Series 3 為展示平台，顯示 x86 架構仍企圖在 AI PC 時代搶佔話語權。軟體層面，路由機制的可靠性成為關鍵：如果「交通警察」誤判，將敏感資料送往雲端，或將複雜推理留在本地導致效能低落，整個使用者體驗就會崩潰。

Srinivas 在 Computex 上以「token value per watt」作為衡量標準，某種程度上預告了 AI 產業的下一步競爭格局：不再只是比誰的模型能力最強，而是比誰能以最低成本、最大隱私保障，為使用者交付最有價值的 token。Perplexity 能否憑藉純路由層定位在這場競賽中突圍，7 月的正式上線將給出第一份答案。