Quay lại danh sách
2026-05-28 · 21 phút đọc

88% AI agent thất bại — và vì sao 12% còn lại có ROI 171%

Tám mươi tám phần trăm dự án AI agent không bao giờ lên được vận hành thực. Một trăm bảy mươi mốt phần trăm là ROI trung bình của 12% còn lại. Đây không phải bằng chứng AI chưa sẵn sàng — đây là phép đo cấu trúc thị trường lưỡng cực tại tháng 5/2026. Trong thị trường lưỡng cực, người trung dung thua sạch; người cam kết đủ sâu thắng đậm. MCP đã giải quyết tích hợp. Năm mảnh dịch còn lại — đánh giá, giao diện tin cậy, ngữ cảnh chuyên ngành, người-trong-vòng-lặp, khung định nghĩa thành công — đang mở. Bài viết dành cho founder Việt muốn biết đặt cược vào đâu cụ thể.

TuanTác giả @tuan

Có hai con số trên slide của giới đầu tư AI tháng này.

Tám mươi tám phần trăm. Và một trăm bảy mươi mốt phần trăm.

Tám mươi tám phần trăm là tỷ lệ dự án AI agent không bao giờ lên được vận hành thực (production). Con số gốc từ nghiên cứu của Anaconda và Forrester, được lặp lại độc lập trong khảo sát của a16z và bảng CIO của MIT Sloan, công bố Q1/2026.

Một trăm bảy mươi mốt phần trăm là lợi nhuận trên vốn đầu tư (ROI) trung bình của 12% còn lại — những dự án thật sự lên được vận hành thực. Ở Mỹ con số là 192%.

Đọc kỹ hai số. Phần lớn người chỉ nhớ số đầu. Số thứ hai mới là phần quan trọng.

Vì hai con số gộp lại không nói "AI chưa sẵn sàng". Chúng nói một điều khác hẳn: thị trường AI agent năm 2026 là thị trường lưỡng cực (bimodal). Không có "thành công vừa phải". Hoặc bạn thua sạch — agent không lên được vận hành, hoặc bạn thắng đậm — ROI 171%. Không có ở giữa.

Đây là một cấu trúc thị trường mà mọi nhà sáng lập (founder) phải hiểu trước khi đặt cược. Vì cách đặt cược vào thị trường lưỡng cực hoàn toàn khác cách đặt cược vào thị trường có phân bố chuẩn (normal distribution).

Số liệu chính, tháng 5/2026

Tôi đã đọc qua các báo cáo gần nhất. Vài con số bạn nên có trong đầu:

Tám mươi tám phần trăm dự án AI agent không lên được vận hành thực (Anaconda + Forrester, Q1/2026). Trong số 12% thành công, ROI trung bình là 171% (Forrester + BCG 2026). Tức là khoảng cách giữa người thắng và người thua không phải 10-20% — là toàn bộ giá trị.

Bảy mươi tám phần trăm doanh nghiệp có dự án thử nghiệm (pilot) AI agent. Mười bốn phần trăm có agent ở vận hành thực (khảo sát March 2026 với 650 lãnh đạo công nghệ doanh nghiệp). Khoảng cách 64 điểm phần trăm này — Gartner gọi là "khoảng cách triển khai" (deployment gap) — là khoảng cách lớn nhất giữa thử nghiệm và sản xuất trong lịch sử công nghệ doanh nghiệp.

Hai mươi hai phần trăm dự án AI agent đã lên được vận hành cho ROI âm sau 12 tháng (Forrester 2026). Trong số đó, 41% thất bại vì không có định nghĩa thành công rõ ràng từ đầu. Không phải vì AI dở. Vì không ai biết "thành công" trông ra sao.

Cost vượt dự toán trung bình 380% so với ước tính ban đầu cho các dự án dùng RAG (MIT Sloan 2026). Thời gian trung vị từ pilot đến shutdown là 14 tháng.

Năm mươi bảy phần trăm tổ chức trải qua thất bại AI đổ lỗi cho kỳ vọng quá nhiều, quá nhanh (Gartner, khảo sát tháng 4/2026 trên 782 lãnh đạo I&O).

Đánh giá chuẩn năng lực agent đã thay đổi mạnh trong 12 tháng qua. SWE-bench Verified (benchmark sửa lỗi GitHub thật) — top hiện tại Claude Opus 4.7 đạt 87,6%. GAIA (tác vụ trợ lý tổng quát) đạt 74,6%. WebArena (tác vụ duyệt web nhiều bước) đạt 74,3% so với mức chuẩn của con người là 78,24%. Nhưng OSWorld (điều khiển máy tính như con người) vẫn chỉ 38%.

Nói cách khác: agent đã gần ngang con người ở các tác vụ có cấu trúc (sửa code, trả lời câu hỏi đa nguồn). Vẫn còn xa con người ở các tác vụ phi cấu trúc (điều khiển giao diện đồ hoạ tuỳ ý).

Và đây là chi tiết quan trọng nhất, công bố ngày 12/4/2026 từ UC Berkeley: cả 8 đánh giá chuẩn agent lớn đều có thể bị "hack phần thưởng" (reward-hacked) lên gần 100%. Tức là các con số bạn đọc trên bảng xếp hạng đã bắt đầu mất ý nghĩa — chúng đo được khả năng tối ưu cho đánh giá chuẩn, không phải khả năng hoạt động trong tình huống thật.

Đây không phải số liệu để bi quan. Là số liệu để hiểu thị trường này thực sự đang ở đâu.

Lịch sử lặp lại — và phần lớn người chưa nhận ra

Năm 2008 đến 2012, các báo công nghệ đăng đều đặn các con số tương tự về điện toán đám mây (cloud computing). Phần lớn doanh nghiệp đụng vào đám mây giai đoạn đầu đều thất bại theo một chỉ số nào đó — bỏ giữa chừng, không đạt mục tiêu kinh doanh, không lên được vận hành thực.

Lúc đó, hai phe nói y hệt với bây giờ.

Phe bi quan: "đám mây chưa sẵn sàng cho doanh nghiệp". Họ chỉ ra an ninh, tuân thủ, độ trễ, lệ thuộc nhà cung cấp (vendor lock-in). Mọi điểm họ chỉ ra đều đúng.

Phe lạc quan: "đợi công nghệ chín hơn, đợi AWS ổn hơn". Họ chờ.

Cả hai phe đều bỏ lỡ điều thực sự đang xảy ra: AWS giàu lên không phải vì công nghệ hơn — mà vì họ xây lớp dịch giữa "công nghệ đám mây có thể làm" và "doanh nghiệp dùng được đám mây". Snowflake không phát minh ra cơ sở dữ liệu kiểu cột (column-store database) — họ xây lớp dịch giữa nó và đội ngũ dữ liệu không có DevOps. Stripe không phát minh thanh toán trực tuyến — họ xây lớp dịch giữa cổng xử lý thanh toán và lập trình viên không muốn đọc 800 trang tài liệu PCI.

Mỗi công ty được sinh ra từ một khoảng cách. Không phải khoảng cách công nghệ — khoảng cách vận hành.

Khoảng cách đó luôn được đo bằng cùng một con số: tỷ lệ doanh nghiệp triển khai thất bại với công nghệ thế hệ mới.

Năm 2026, con số đó là 88%. Năm 2010, con số đó là khoảng 70-75% với đám mây.

Tỷ lệ thất bại cao không phải dấu hiệu công nghệ chưa sẵn sàng. Là dấu hiệu lớp dịch chưa được xây xong.

MCP đã xây xong một mảnh — đây là tin tốt và tin xấu

Có một thay đổi lớn đã xảy ra trong 18 tháng qua mà phần lớn người Việt làm công nghệ chưa cảm nhận đủ.

Giao thức ngữ cảnh mô hình (Model Context Protocol — MCP), do Anthropic công bố tháng 11/2024, đã trở thành tiêu chuẩn ngành. OpenAI áp dụng tháng 3/2025. Google DeepMind tháng 4/2025. Microsoft, Cloudflare, Cursor, VS Code, JetBrains đã tích hợp. Tháng 12/2025 Anthropic chuyển MCP cho Agentic AI Foundation làm hạ tầng trung lập.

Số liệu tháng 4/2026: 78% đội ngũ AI doanh nghiệp đã có ít nhất một agent dùng MCP ở vận hành thực. 67% giám đốc công nghệ (CTO) gọi MCP là tiêu chuẩn tích hợp agent mặc định. Đăng ký công khai của MCP servers tăng từ 1.200 đầu 2025 lên hơn 9.400 vào tháng 4/2026.

Điều này có nghĩa gì với luận điểm "lớp dịch"?

Có nghĩa là một mảnh của lớp dịch đã được xây xong. Mảnh tích hợp công cụ — kết nối mô hình AI với cơ sở dữ liệu, hệ thống quản lý quan hệ khách hàng (CRM), API doanh nghiệp — đã có chuẩn mở miễn phí. Nhà sáng lập 2026 không cần xây lại cái đó. Họ dùng MCP.

Đây là tin tốt: rào cản vào ngành đã giảm. Bạn không cần build engineering team 50 người để có một agent kết nối được với 20 hệ thống nội bộ.

Đây cũng là tin xấu: tích hợp không còn là lợi thế cạnh tranh. Trong sóng đám mây, một phần của AWS chính là tích hợp — họ là người đầu tiên kết nối đủ thứ với đủ thứ. Năm 2026, tích hợp đã được commoditized — biến thành hàng hoá có sẵn — bởi MCP.

Vậy lớp dịch còn lại nằm ở đâu?

Năm mảnh còn trống — và đó là bản đồ chỉ đường

Sau khi MCP lấp đầy mảnh tích hợp, năm mảnh còn lại đáng để đặt cược:

Mảnh một: Đánh giá và quan sát (evaluation & observability). Theo Forrester, 64% người dẫn đầu trong 12% thành công nêu đây là rào cản lớn nhất họ vượt qua. Vì sao? Vì agent có đầu ra không xác định (non-deterministic). Cùng đầu vào, hai lần chạy ra hai kết quả. Bảng điều khiển truyền thống không bắt được lỗi này. Cần một loại bảng điều khiển mới — đo độ trôi (drift), đo chất lượng đầu ra ở quy mô, đo tỷ lệ chuyển lên cho người (escalation). Lớp này có Datadog, có Arize, có một vài tên khác — nhưng chưa có người thắng rõ ràng cho riêng AI agent.

Mảnh hai: Giao diện tin cậy (trust UI). Hai mươi bảy phần trăm tổ chức tin agent tự động hoàn toàn, giảm từ 43% một năm trước. Lòng tin đang giảm trong khi năng lực mô hình đang tăng. Khoảng cách này được lấp bằng thiết kế sản phẩm — cách agent giải thích quyết định, cách hiển thị độ chắc chắn, cách cho phép người dùng can thiệp. Đây là vấn đề trải nghiệm người dùng (UX), không phải vấn đề mô hình. Founder nào hiểu được đây sẽ thắng các đối thủ có mô hình giỏi hơn nhưng UX tệ hơn.

Mảnh ba: Ngữ cảnh chuyên ngành (domain context). Mô hình nền tảng (foundation model) là cuộc chơi của bên có vốn cực lớn. Founder Việt vào đó là tự sát. Nhưng ngữ cảnh chuyên ngành — kiến thức ngành cụ thể, dữ liệu vận hành riêng, quy trình đặc thù — là cái không thể nhân rộng quy mô bằng năng lực tính toán (compute). Một agent biết về vận hành kho lạnh ở Đông Nam Á tốt hơn GPT-5.2 không phải vì mô hình tốt hơn. Vì có dữ liệu và ngữ cảnh mà GPT-5.2 không bao giờ thấy.

Mảnh bốn: Hạ tầng người-trong-vòng-lặp (human-in-the-loop). Trực giác sai: human-in-the-loop là tạm thời, đợi AI giỏi hơn sẽ bỏ. Trực giác đúng: nó là vĩnh viễn, vì hệ thống có quyết định không thể đảo ngược luôn cần một điểm chịu trách nhiệm pháp lý. EU AI Act bắt đầu có hiệu lực với hệ thống rủi ro cao từ tháng 8/2026 — yêu cầu giám sát con người trở thành luật, không chỉ là khuyến nghị. Founder nào xây được "Datadog của luồng việc người-AI" sẽ là kỳ lân (unicorn) của sóng này.

Mảnh năm: Khung định nghĩa thành công và kiểm toán (success criteria & audit). Đây là mảnh lạ nhất. Theo Forrester, 41% dự án có ROI âm là do không có định nghĩa thành công rõ ràng. Không phải vì mô hình kém. Vì không ai chốt được "thành công" trông ra sao trước khi triển khai. Đây là khoảng trống dịch vụ — phương pháp luận, công cụ, mẫu hợp đồng — không chỉ phần mềm. Người Việt làm tư vấn có thể chiếm mảnh này nhanh hơn người Mỹ, vì chi phí lao động chuyên môn ở Việt Nam thấp hơn nhiều.

Năm mảnh. Mỗi mảnh là một thị trường nhiều tỷ đô. Cộng lại không nhỏ hơn AWS năm 2012.

Vì sao 88% thua sạch nhưng 12% thắng đậm

Quay lại con số lưỡng cực ở đầu bài. Tại sao thị trường này lại có cấu trúc lưỡng cực (bimodal), không phải phân bố chuẩn (normal)?

Câu trả lời nằm ở bản chất của agent. Agent khác với phần mềm truyền thống ở một điểm: agent có nhiều bước. Mỗi bước có xác suất sai. Lỗi tích luỹ.

Nếu mỗi bước agent có xác suất đúng 90%, thì:

  • Tác vụ 3 bước: 73% đúng
  • Tác vụ 5 bước: 59% đúng
  • Tác vụ 10 bước: 35% đúng
  • Tác vụ 20 bước: 12% đúng

Trong khi đó, nếu mỗi bước có xác suất đúng 99%:

  • Tác vụ 10 bước: 90% đúng
  • Tác vụ 20 bước: 82% đúng

Khoảng cách giữa 90% chính xác mỗi bước và 99% chính xác mỗi bước nghe nhỏ. Trên thực tế, nó là khác biệt giữa thất bại sạch và thành công sạch.

Đây là vì sao 88% và 12%, không phải 50-50. Để vượt qua ngưỡng triển khai vận hành, bạn cần mọi mảnh đều xuất sắc: mô hình tốt, đường ống dữ liệu tốt, đánh giá tốt, UX tốt, quy trình tốt, đội ngũ tốt. Thiếu một, lỗi nhân lên qua nhiều bước, và agent rơi xuống dưới ngưỡng dùng được.

Còn người làm tốt mọi mảnh thì lỗi không tích luỹ, agent vượt ngưỡng, và ROI 171% — vì agent thay thế hoàn toàn một quy trình lao động, không bù trừ với chi phí kiểm soát.

Tính chất này có nghĩa quan trọng với chiến lược: không có vị trí trung gian an toàn. Bạn không thể "thử AI agent 60% để xem sao". Hoặc bạn cam kết xây cho 99% mỗi bước — chấp nhận chi phí và độ phức tạp — hoặc bạn không nên vào.

Vì sao người Việt làm tech ở vị trí đặc biệt

Doanh nghiệp Mỹ đang thất bại ở lớp agent một phần vì hạ tầng cũ quá phức tạp — họ có 50 hệ thống kế thừa (legacy) cần tích hợp, mỗi cái có cơ chế xác thực riêng, kiểm toán riêng, tuân thủ riêng. Họ phải lắp ghép (retrofit) agent vào hệ thống đã có.

Doanh nghiệp Việt phần lớn đang số hoá lớp một. Hệ thống hoạch định nguồn lực doanh nghiệp (ERP) còn chưa có hoặc mới có. Vận hành phần lớn vẫn nửa giấy nửa Excel.

Trực giác phổ biến: "vậy Việt Nam đang đi sau, phải đuổi kịp."

Trực giác này sai theo cách rất tinh vi.

Khi doanh nghiệp Việt chưa có hạ tầng cũ để bị mắc kẹt, họ có lựa chọn mà doanh nghiệp Mỹ không còn: bỏ qua lớp một, xây trực tiếp lớp lấy agent làm gốc (agent-native) từ đầu. Không phải lắp ghép AI lên ERP cũ. Là xây hệ thống vận hành mà AI là thành phần hạng nhất ngay từ thiết kế đầu tiên.

Đây là cú nhảy mà các thị trường mới nổi vẫn làm trong mỗi sóng công nghệ. Châu Phi nhảy thẳng từ không-điện-thoại-bàn lên ưu tiên di động (mobile-first). Trung Quốc nhảy thẳng từ tiền mặt lên thanh toán QR. Indonesia nhảy thẳng từ không-tài-khoản-ngân-hàng lên fintech.

Việt Nam có cơ hội tương tự với vận hành lấy agent làm gốc. Nhưng chỉ khi founder Việt không bị mê hoặc bởi việc đuổi theo doanh nghiệp Mỹ. Bởi nếu cố đuổi theo, bạn sẽ xây lại lớp một (ERP truyền thống), rồi vài năm sau cố lắp ghép agent lên — và sẽ vào đúng cái bẫy 88% mà Mỹ đang ở.

Cơ hội Việt không phải đuổi theo. Là bỏ qua bước trung gian.

Có một góc nữa hiếm ai nói. EU AI Act bắt đầu có hiệu lực với hệ thống rủi ro cao từ tháng 8/2026. Doanh nghiệp Mỹ và châu Âu sẽ phải đầu tư rất nhiều vào hạ tầng tuân thủ trong 18 tháng tới — và đó là chi phí, không phải lợi thế. Việt Nam chưa có khung pháp lý tương đương — nghĩa là tốc độ thử nghiệm và triển khai ở Việt Nam có thể nhanh hơn 2-3 lần. Cộng với chi phí kỹ sư bằng 1/5 Mỹ, lợi thế thời gian này là cơ hội lớn — nếu được dùng đúng cách.

"Đúng cách" có nghĩa là: không xây sản phẩm chạy ở thị trường Mỹ ngay từ đầu (vì sẽ vướng EU AI Act tương đương). Là xây cho thị trường Việt Nam và Đông Nam Á — nơi khung pháp lý chưa cứng, nơi có ngữ cảnh chuyên ngành chưa ai phục vụ — rồi tìm cách mở rộng sau.

Vì sao đánh giá chuẩn không đáng tin năm 2026

Một chi tiết kỹ thuật mà mọi founder nên biết.

Ngày 12/4/2026, nhóm nghiên cứu UC Berkeley công bố một phát hiện: cả 8 đánh giá chuẩn (benchmark) agent lớn đều có thể bị hack phần thưởng (reward hacking) lên gần 100% chính xác — không phải bằng cách thực sự giỏi tác vụ, mà bằng cách tối ưu các đặc điểm bề mặt của đánh giá chuẩn.

Đây không phải lừa đảo có chủ đích. Đây là sự thật toán học về cách các đánh giá chuẩn được xây. Bất kỳ chỉ số nào trở thành mục tiêu đều ngừng là chỉ số tốt — nguyên lý này đã được biết từ lâu trong kinh tế học (định luật Goodhart). Năm 2026 nó đụng đến AI.

Điều này có nghĩa gì với bạn?

Có nghĩa là các con số trên bảng xếp hạng đã mất khả năng làm chỉ báo. Khi Anthropic công bố Claude Opus 4.7 đạt 87,6% SWE-bench Verified, con số đó không nói cho bạn biết mô hình có dùng được không cho công việc của bạn. Nó chỉ nói mô hình tối ưu tốt cho SWE-bench Verified.

Quy tắc cứng cho founder năm 2026: đừng chọn mô hình dựa trên đánh giá chuẩn công khai. Chọn dựa trên đánh giá riêng của bạn, trên tác vụ thật của bạn, với dữ liệu thật của bạn. Đánh giá chuẩn công khai chỉ có giá trị làm bộ lọc đầu vào — "mô hình này không thấp dưới ngưỡng tối thiểu" — không có giá trị làm bộ lọc đầu ra.

Đây cũng là lý do mảnh số một (đánh giá và quan sát) quan trọng đến vậy. Tổ chức nào xây được hệ thống đánh giá riêng cho lĩnh vực của mình sẽ ra quyết định mua đúng. Tổ chức nào tin bảng xếp hạng công khai sẽ ra quyết định sai một cách hệ thống.

Phép thử cho bạn

Trước khi kết, bốn câu hỏi để soi mình tuần này.

"Bạn đang đo agent có hoạt động không, hay agent có đang sai mà chưa ai biết không?"

Câu trả lời thứ nhất nghĩa là bạn đang thấy bề mặt — và nhiều khả năng đang ở trong 88% chưa biết mình đã thất bại. Câu trả lời thứ hai nghĩa là bạn đã có cơ chế nhìn vào sai sót thật của agent — điều kiện cần để bước vào 12% thành công.

"Bạn có định nghĩa thành công bằng số trước khi triển khai agent không?"

Nếu không, bạn đã có sẵn 41% xác suất vào nhóm 22% có ROI âm. Định nghĩa thành công không phải khuyến nghị — là điều kiện đầu vào.

"Bạn đang xây sản phẩm AI hay đang xây một trong năm mảnh dịch giữa AI và doanh nghiệp?"

Câu trả lời thứ nhất sẽ đặt bạn vào cuộc chơi với OpenAI và Anthropic. Bạn sẽ thua. Câu trả lời thứ hai đặt bạn vào cuộc chơi mà câu hỏi vẫn còn mở.

"Bạn đang chọn mô hình dựa trên bảng xếp hạng công khai hay dựa trên đánh giá riêng cho lĩnh vực của bạn?"

Nếu là bảng xếp hạng, bạn đang quyết định trên dữ liệu đã bị hack. Đánh giá riêng tốn thời gian, nhưng là điều kiện cần để không thuộc về 88%.

Kết

Tám mươi tám phần trăm dự án AI agent không bao giờ lên được vận hành thực. Một trăm bảy mươi mốt phần trăm là ROI của 12% còn lại.

Đây không phải bằng chứng AI chưa sẵn sàng. Đây là phép đo cấu trúc thị trường lưỡng cực tại tháng 5/2026. Trong thị trường lưỡng cực, người trung dung thua sạch. Người cam kết đủ sâu để vượt ngưỡng vận hành thắng đậm.

MCP đã giải quyết tích hợp. Năm mảnh còn lại — đánh giá, giao diện tin cậy, ngữ cảnh chuyên ngành, người-trong-vòng-lặp, khung định nghĩa thành công — vẫn đang mở. Mỗi mảnh có thể là một công ty tỷ đô. Cộng lại có thể là tầng AWS/Snowflake/Stripe tiếp theo.

Người thắng trong sóng đám mây không phải Intel, không phải VMware. Là AWS, Snowflake, Stripe — những công ty xây lớp dịch. Người thắng trong sóng AI có thể không phải Anthropic, không phải OpenAI. Có thể là những công ty đang xây năm mảnh dịch ở trên — phần lớn còn chưa có tên.

Số liệu thất bại không phải lý do để rút lui. Là bản đồ chỉ đường vào nơi giá trị thật sẽ được tạo ra. Khoảng cách giữa năng lực mô hình và mức độ sẵn sàng của doanh nghiệp là cơ hội thị trường lớn nhất 2026-2030. Khoảng cách đó không phụ thuộc vào việc mô hình giỏi hơn — mô hình sẽ giỏi hơn. Khoảng cách đó phụ thuộc vào việc có ai xây cái cầu hay không.

Người làm tech Việt đứng trước lựa chọn: nhìn 88% và rút lui, hay nhìn 88% và bắt đầu xây.

Bùa hộ mệnh tệ nhất của phe lạc quan về AI là tin rằng AI sẽ tự thắng. Nó sẽ không tự thắng. Có người phải xây cái cầu. Bạn có muốn là người đó không?

Nguồn và độ tin cậy

88% pilot AI agent không lên vận hành thực, 12% còn lại có ROI 171% — Anaconda và Forrester, Q1/2026, được lặp lại độc lập trong khảo sát a16z và bảng CIO của MIT Sloan. Độ tin cậy: cao — nhiều nguồn độc lập xác nhận cùng kết quả.

78% pilot vs 14% production — Khảo sát March 2026 với 650 lãnh đạo công nghệ doanh nghiệp ở Mỹ, từ 500 đến 50.000+ nhân viên. Độ tin cậy: trung bình-cao. Phương pháp tốt, nhưng chỉ một thời điểm, không phải dữ liệu chuỗi thời gian.

22% deployment có ROI âm sau 12 tháng; 41% trong số đó do thiếu success criteria — Forrester 2026, phân tích nguyên nhân gốc. Độ tin cậy: trung bình-cao. Forrester có phương pháp ổn định, nhưng "ROI âm" có nhiều cách định nghĩa.

Cost vượt dự toán 380% với RAG; median 14 tháng từ pilot đến shutdown — MIT Sloan 2026. Độ tin cậy: cao về phương pháp, nhưng cỡ mẫu cần kiểm tra (báo cáo gốc dùng ~150 dự án).

57% tổ chức trải qua thất bại AI đổ lỗi "kỳ vọng quá nhiều, quá nhanh" — Gartner, khảo sát tháng 4/2026 trên 782 lãnh đạo I&O. Độ tin cậy: cao về cỡ mẫu. Lưu ý: tự khai báo về nguyên nhân thất bại có thiên lệch người-trả-lời.

MCP đạt 78% enterprise teams, 67% CTO gọi là tiêu chuẩn mặc định; 9.400+ servers công khai — Báo cáo MCP Adoption Statistics April 2026. Độ tin cậy: trung bình. Đây là tổng hợp từ nhiều nguồn (đếm GitHub repos, khảo sát CTO, đếm downloads). Xu hướng thì rõ — MCP đã thành chuẩn — con số chính xác có thể dao động.

SWE-bench Verified 87,6%, GAIA 74,6%, WebArena 74,3%, OSWorld 38% — Tổng hợp từ leaderboards công khai tháng 4/2026 (Princeton HAL, BenchLM, Steel.dev). Độ tin cậy: cao về con số, thấp về ý nghĩa thực tế. Xem điểm tiếp.

Cả 8 benchmark agent lớn bị reward-hacked lên ~100% — Nghiên cứu UC Berkeley, công bố 12/4/2026. Độ tin cậy: cao, nghiên cứu peer-reviewed. Hệ quả: các con số benchmark ở mục trên chỉ có giá trị tương đối, không phải tuyệt đối.

27% tổ chức tin AI agent tự động hoàn toàn, giảm từ 43% — Khảo sát giám đốc CNTT Mỹ 2026. Độ tin cậy: trung bình. Đo niềm tin chủ quan có nhiễu, nhưng xu hướng đi xuống được xác nhận qua nhiều nguồn (Edelman Trust Barometer, Stanford AI Index).

Định giá Anthropic 900 tỷ USD, doanh thu hàng năm 45 tỷ tháng 5/2026 — Financial Times, Bloomberg, CNBC tháng 5/2026. Độ tin cậy: cao.

Ghi chú chung về số liệu AI 2026

Toàn ngành chưa thống nhất về định nghĩa thành công cho AI agent. "Thất bại" trong báo cáo này có thể là "thành công có học hỏi" trong báo cáo khác. Khi đọc bất cứ con số nào — bao gồm các con số trong bài này — hãy hỏi: họ đang đếm gì, và họ định nghĩa thành công ra sao. Phần lớn bất đồng về việc "AI có hoạt động được không" thực ra là bất đồng về cách đo.

Tôi giữ các con số trong bài để minh hoạ xu hướng, không phải để chứng minh kết luận cứng. Lập luận trung tâm — thị trường AI agent năm 2026 là thị trường lưỡng cực, và năm mảnh dịch còn trống là cơ hội lớn nhất 2026-2030 — không phụ thuộc vào con số chính xác nào ở trên. Nó phụ thuộc vào hai sự thật được mọi nguồn đồng thuận: thị trường có cấu trúc lưỡng cực, và lớp dịch chưa được xây xong.