能力逼近旗艦、價格砍一半——為什麼 Claude Sonnet 5 是上班族現在就該試的 AI

電腦操作能力甚至超過人類基準,這對你每天的工作到底意味著什麼

圖 1|Claude Sonnet 5,2026 年 6 月 30 日發布

圖 1|Claude Sonnet 5,2026 年 6 月 30 日發布

你上一次用 AI,大概是問它一個問題、它回你一段答案吧?

Claude Sonnet 5 這次的重點,不是「答得更漂亮」。是它開始「自己動手,把一整串工作做完」。

Anthropic 在 2026 年 6 月 30 日推出 Claude Sonnet 5。官方一句話定位它:「專為最具代理性(agentic)的 Sonnet 模型而打造,能制定計畫、使用瀏覽器和終端等工具,並以自主方式運行」,效能接近最貴的旗艦 Opus 4.8,價格卻更低。

這篇不跟你講規格表,跟你講一件事——這對你每天的工作,到底意味著什麼。

本文重點

  • Sonnet 5 是最會「用工具、跑完多步驟任務」的 Claude,不再只是聊天

  • 能力逼近旗艦 Opus 4.8,卻只賣中階價——用平價買到接近頂規

  • 在電腦操作測驗上站上人類水準之上——AI 幫你跑流程,開始變真的

先講白話:Sonnet 5 到底哪裡不一樣?

以前的 AI,比較像一個「很會回話的顧問」。你問,它答。Sonnet 5 更像一個「會自己動手的助理」。它會做三件以前做不好的事:

圖 2|這半年 AI 圈一直在講的「agentic(能動手做事)」,Sonnet 5 是 Sonnet 系列裡最能動手的一個

圖 2|這半年 AI 圈一直在講的「agentic(能動手做事)」,Sonnet 5 是 Sonnet 系列裡最能動手的一個

第三點特別關鍵。TechCrunch 的說法是:它「能自主運行到一個水準,而這在幾個月前還需要更大、更貴的模型才做得到」。

幾個數字,看它到底多強

我知道你不愛看數字,但這幾個很有感(跨代比較整理自 MarkTechPost)。

寫程式(SWE-bench Pro):一個「中階」型號,把跟旗艦的差距追到只剩一點點。

圖 3|Sonnet 5(63.2)卡在前代(58.1)與旗艦(69.2)之間,逼近旗艦|資料來源:MarkTechPost

圖 3|Sonnet 5(63.2)卡在前代(58.1)與旗艦(69.2)之間,逼近旗艦|資料來源:MarkTechPost

終端機任務(Terminal-Bench 2.1):從前代的 67.0,一口氣跳到 80.4。

圖 4|終端機自動化能力,一代之內從 67.0 跳到 80.4

圖 4|終端機自動化能力,一代之內從 67.0 跳到 80.4

電腦操作(OSWorld):Sonnet 5 拿 81.2,高於前代的 78.5。而 OSWorld 這個測驗,過去人類受測者的成功率大約落在七成——換句話說,Sonnet 5 操作電腦的準度,已經站上人類水準之上。

圖 5|這不是「聊天更聰明」,是「它真的會用電腦幫你做事」

圖 5|這不是「聊天更聰明」,是「它真的會用電腦幫你做事」

而且這不只是 Anthropic 自己說。中立的第三方評測機構 Artificial Analysis 也把 Sonnet 5 列進「智慧指數」的領先群,並點名它「在同價位帶裡定價很漂亮」。有中立單位背書,這些數字才站得住腳。

便宜到什麼程度?

這是最讓上班族心動的一點。Sonnet 5 的能力已經逼近最貴的旗艦 Opus 4.8,但它賣的是中階價。

圖 6|官方公布定價|資料來源:Anthropic、TechCrunch

圖 6|官方公布定價|資料來源:Anthropic、TechCrunch

而且——你不一定要付費 API 才用得到。 官方說明它「在所有方案中推出,是免費版和 Pro 版的預設模型」。也就是說,你打開 Claude,用的就是它。開發者這邊,它也在 GitHub Copilot 正式上線了。企業端也同步上架 AWS Bedrock,導入更方便。

那它是不是完美無缺?(先幫你踩煞車)

不是。這點我幫你講清楚,你才不會被行銷沖昏頭。多家分析(The New StackThe Decoder)都指出:它跟旗艦 Opus 4.8 的差距縮小了、但沒有完全補上

圖 7|務實的說法:Sonnet 5 是「CP 值最高」的那個,不見得是「最強」的那個

圖 7|務實的說法:Sonnet 5 是「CP 值最高」的那個,不見得是「最強」的那個

對絕大多數上班族的日常工作,這個 CP 值已經完全夠用、而且划算。真的要壓榨極限難題,才需要動用更貴的旗艦。還有一點對企業特別重要:官方 System Card 指出,Sonnet 5 在自主跑任務時「不當行為的比率比前代更低、更安全」。要放手讓 AI 代跑流程,這是關鍵的定心丸。

「電腦操作站上人類水準」,對你的工作意味著什麼?

「AI 操作電腦比人準」聽起來很科技,但落到你桌上,是這個意思:那些機械性、重複、要一直點來點去的事——查一批資料、填一堆表、把幾個系統的東西搬來搬去、跑一段固定流程——這些開始可以交給它了。

注意,不是叫它取代你的判斷。報告怎麼寫、決策怎麼下、風險怎麼扛,還是你的事。但「動手把資料查完、把流程跑完」這段最花時間、最枯燥的,可以外包給 AI。

你負責決定飛去哪,AI 負責把飛機開穩。你是機長,它是機組人員。

上班族現在該怎麼開始?

圖 8|別把它當「更聰明的聊天機器人」試兩下就關掉——用對方式才省得到時間

圖 8|別把它當「更聰明的聊天機器人」試兩下就關掉——用對方式才省得到時間

結語

Claude Sonnet 5 真正的訊號,不是「AI 又變聰明了」。是「會用 AI 動手做事的人,開始把只會聊天的人,狠狠拉開一個世代」。工具已經到位,而且便宜到沒有藉口。

AI 不會取代你,但會用 AI 的人會取代你。

今天就打開 Claude,挑一件你最煩的例行工作,交給它試一次。

📚 想用 AI 把工作效率拉開一個世代?

我是 AI峰哥(阿峰老師),專注企業 AI 實戰培訓——會用、懂用、好用、每天用:

📬 訂閱電子報 → startupforyou.substack.com
📝 更多實戰文章 → blog.autolab.cloud
🎓 企業內訓/課程諮詢 → ai@autolab.cloud | LINE:0976-715-102

你是機長,AI 是你的機組人員。✈️

關於作者
黃敬峰(AI峰哥/阿峰老師),企業 AI 實戰培訓專家,服務客戶包含國泰人壽、南山人壽、富邦銀行、工研院、士林電機、華碩、精誠資訊等。聯絡方式:ai@autolab.cloud

資料來源(多方交叉查證)

官方一手資料
Anthropic 官方公告System CardAWS BedrockGitHub Copilot

財經與主流科技媒體
TechCrunchYahoo FinanceMacRumorsThurrott

分析與獨立第三方評測
Artificial AnalysisMarkTechPostThe DecoderThe New StackDataCamp

數據以官方公布與各家報導為準;不同來源的細部分數略有差異,本文採第三方一致整理版本,並標明出處。

AI工具ClaudeClaude Sonnet 5AI趨勢職場效率數位轉型