Có một câu hỏi tôi đã suy nghĩ nhiều tuần qua.
Tại sao chúng ta không thể giữ một trạng thái tốt? Một mối quan hệ ở giai đoạn lãng mạn nhất. Một thành công ở đỉnh cao. Một niềm vui ở khoảnh khắc trọn vẹn. Cảm giác mạnh mẽ nhất.
Tất cả đều phai. Không cần lý do bên ngoài. Không cần ai phá hủy. Bản thân hệ thần kinh kéo mọi trạng thái về mức nền (baseline).
Đây không phải tình cờ. Là thiết kế.
Và điều thú vị nhất: khi chúng ta xây AI agent, chúng ta đang phải tái khám phá cùng thiết kế đó — không phải vì cố ý, mà vì các hệ thống không có cơ chế chống hội tụ đều thất bại theo cách có thể đoán trước.
Cân bằng nội môi — nguyên tắc nền tảng
Sinh học hoạt động trên một nguyên tắc cơ bản: cân bằng nội môi (homeostasis). Mọi hệ thống sinh học có một dải giá trị bình thường và tích cực kéo về dải đó khi bị đẩy ra.
Nhiệt độ cơ thể luôn quanh 37°C. Đường huyết luôn quanh một dải. Huyết áp, nồng độ chất điện giải, độ pH máu — tất cả được giữ trong dải hẹp.
Khi bạn đói, đường huyết giảm, hệ thống đẩy bạn ăn. Khi bạn ăn nhiều, đường huyết tăng quá, hệ thống tiết insulin. Không bao giờ ổn định ở trạng thái cao bất thường hay thấp bất thường.
Điều ít được hiểu hơn: cân bằng nội môi cảm xúc cũng tồn tại. Và nó vận hành theo cùng nguyên tắc.
Sự thích nghi khoái lạc
Daniel Kahneman và đồng nghiệp đã chỉ ra một hiện tượng kỳ lạ: người trúng số xổ số lớn và người mất chi do tai nạn, sau 1-2 năm, có mức hạnh phúc trung bình gần như nhau và gần với mức trước sự kiện.
Đây là sự thích nghi khoái lạc (hedonic adaptation) — não điều chỉnh để các trạng thái cảm xúc cực đoan không thể duy trì.
Cơ chế: thụ thể dopamine giảm độ nhạy (downregulate) khi tiếp xúc nhiều với dopamine. Thụ thể hormone căng thẳng tăng hoặc giảm độ nhạy tùy điều kiện. Não tích cực thay đổi sinh hóa của chính mình để mọi trạng thái cường độ cao trở thành nền sau một thời gian.
Đây là vì sao:
Người yêu sâu sau 18-24 tháng không còn cảm giác mãnh liệt ban đầu — không phải tình yêu chết, là thụ thể đã thay đổi.
Người chịu đau mãn tính có thể chức năng được — cơ thể đã điều chỉnh để đau không còn tê liệt.
Người sống trong giàu sang lâu năm không cảm nhận giàu sang là đặc biệt — đó đã thành mức nền mới.
Sự thích nghi khoái lạc không phân biệt tốt và xấu. Nó chỉ là cơ chế kéo về mức nền.
Vì sao tiến hoá thiết kế như vậy
Câu hỏi tự nhiên: tại sao? Tại sao tiến hoá không cho phép chúng ta duy trì trạng thái tốt?
Câu trả lời nằm ở chức năng sinh tồn.
Một, tín hiệu cần độ tương phản. Nếu mọi thứ luôn tuyệt vời, không có gì là tuyệt vời. Niềm vui có ý nghĩa vì có tương phản với mức nền. Đau có ý nghĩa vì có tương phản với không đau. Một hệ thống ở trạng thái cực đoan vĩnh viễn mất khả năng nhận tín hiệu.
Hai, năng lượng cao là tốn kém. Cảm xúc mạnh — cả tích cực và tiêu cực — tiêu hao tài nguyên sinh hóa. Hệ thống không thể duy trì cường độ cao mà không cạn kiệt. Tiến hoá ưu tiên hệ thống có thể trở về tiết kiệm sau khi sự kiện qua.
Ba, môi trường thay đổi. Sinh vật giữ một trạng thái cố định khi môi trường biến động sẽ chết. Sinh vật có thể thích ứng với điều kiện mới — kể cả khi điều kiện cũ tốt hơn — sống sót.
Bốn, sinh vật phải tiếp tục tìm kiếm. Nếu cảm thấy đầy đủ mãi mãi, sẽ không tìm thức ăn, không tìm bạn đời, không tránh nguy hiểm. Tiến hoá thiết kế để mọi đầy đủ phai dần, tạo động lực hành động.
Đây là thiết kế chống hội tụ. Sinh học không cho phép bất kỳ trạng thái nào trở thành điểm cuối. Mọi đỉnh đều rơi xuống. Mọi đáy đều dâng lên. Cuộc đời là chuỗi dao động quanh mức nền, không phải hành trình đến đỉnh.
AI agents — vì sao chúng ta phải tái khám phá cùng thiết kế
Khi tôi và đồng nghiệp bắt đầu xây AI agents nghiêm túc cho môi trường sản xuất (production) trong năm qua, một số bài học không lý thuyết hoá được — chỉ học qua thất bại.
Một trong những bài học đó: agent không có cơ chế chống hội tụ sẽ thất bại theo cách dự đoán được.
Cụ thể:
Vòng lặp agent không có điều kiện thoát. Agent đầu tiên chúng tôi xây chạy theo lập kế hoạch — thực thi — quan sát — lập lại kế hoạch. Lý thuyết đẹp. Trong thực tế, agent dễ rơi vào điểm tối ưu cục bộ (local maximum) — một giải pháp "đủ tốt" mà nó không thoát ra được. Nó tiếp tục tối ưu quanh giải pháp đó, không bao giờ khám phá không gian khác.
Giải pháp: thêm lịch nhiệt độ (temperature schedule). Buộc agent đôi khi chọn hành động không tối ưu, để thoát ra khỏi điểm hội tụ giả. Đây chính xác là chống hội tụ — buộc hệ thống không ổn định ở một trạng thái.
Đây không phải phát minh mới. Là re-implement của thám hiểm so với khai thác (exploration vs exploitation) — bài toán cũ trong học tăng cường (reinforcement learning). Nhưng quan trọng hơn, đây là cùng nguyên tắc sinh học đã giải quyết: hệ thống cần cơ chế bắt buộc không hội tụ vĩnh viễn.
Bộ nhớ không có cơ chế phai. Agent có bộ nhớ dài hạn ban đầu của chúng tôi giữ mọi sự kiện với trọng số bằng nhau. Sau vài trăm cuộc trò chuyện, cửa sổ ngữ cảnh đầy thông tin cũ không liên quan. Agent ra quyết định kém vì bị nhiễu bởi quá khứ.
Giải pháp: phai bộ nhớ (memory decay). Thông tin cũ mờ dần trừ khi được kích hoạt lại. Đây chính xác là cách bộ não con người hoạt động — ký ức không được truy xuất sẽ yếu dần, ký ức được truy xuất nhiều lần được củng cố.
Tại sao? Vì giữ mọi thứ vĩnh viễn là gánh nặng. Hệ thống có giới hạn tài nguyên phải có cơ chế xóa. Cả não và AI agent đều phải vậy.
Hàm thưởng không bão hòa. Một agent tối ưu cho một chỉ số đơn (ví dụ: doanh thu) sẽ hội tụ vào hành vi cực đoan tối đa hóa chỉ số đó. Định luật Goodhart: khi một đo lường trở thành mục tiêu, nó ngừng là đo lường tốt.
Giải pháp: lợi suất giảm dần (diminishing returns) trong hàm thưởng. Mỗi đơn vị tăng trong chỉ số mang lại phần thưởng giảm dần. Điều này buộc agent không hội tụ vào một chiến lược duy nhất.
Đây là cách sinh học vận hành. Đói ăn đến no — sau no, dopamine từ ăn giảm. Khát uống đến đủ — sau đủ, uống thêm không cảm thấy gì. Hệ thống được thiết kế để mọi thoả mãn có điểm bão hòa.
Trạng thái không có làm mới ngữ cảnh. Agent giữ một trạng thái quá lâu không làm mới sẽ ra quyết định dựa trên giả định cũ. Trong môi trường thay đổi, điều này gây thất bại.
Giải pháp: làm mới ngữ cảnh bắt buộc (forced context refresh) định kỳ. Buộc agent xem lại trạng thái, kiểm tra giả định, cập nhật. Đây là cơ chế ngược với hội tụ — buộc hệ thống đặt câu hỏi về chính mình.
Trong sinh học, đây là chức năng của giấc ngủ và pha REM. Mỗi đêm, não tái xử lý kinh nghiệm trong ngày, cập nhật mô hình thế giới, củng cố một số ký ức và xóa một số ký ức khác. Người mất ngủ kéo dài có suy giảm nhận thức nghiêm trọng — không phải vì mệt, mà vì hệ thống không có cơ chế cập nhật.
Bài học từ song song hai chiều
Khi sinh học và kỹ thuật xây AI hội tụ cùng nguyên tắc thiết kế, đó là tín hiệu mạnh rằng nguyên tắc đó không phải tình cờ. Là cấu trúc của bài toán.
Bài toán: làm sao một hệ thống có thể duy trì khả năng thích ứng trong môi trường thay đổi.
Câu trả lời chung — cả sinh học và AI: không cho phép hội tụ vĩnh viễn. Phải có cơ chế bắt buộc thoát ra khỏi mọi trạng thái ổn định, kể cả trạng thái tốt.
Đây là một sự thật khó cho người muốn tối ưu cuộc đời mình:
Không có "ổn định tối ưu". Bất kỳ trạng thái nào cảm thấy hoàn hảo sẽ phai. Không phải vì có gì sai. Vì đây là cách hệ thống được thiết kế để hoạt động.
Không có "đạt đích". Mọi thành tựu sẽ trở thành mức nền. Tiếp tục cần đặt mục tiêu mới — không phải vì tham lam, vì sinh học chống lại sự đứng yên.
Không có "ổn định cảm xúc vĩnh viễn". Người trông như luôn cân bằng không phải đã đạt trạng thái cuối — họ đang dao động trong dải hẹp, với mức nền thấp.
Hệ quả cho cách xây tổ chức
Bài này có vẻ về thiết kế kỹ thuật. Nhưng có hệ quả lớn cho người lãnh đạo.
Tổ chức cũng có cân bằng nội môi. Một văn hoá không thể giữ ở trạng thái cao mãi. Mọi tái cấu trúc tạo cảm hứng ban đầu sẽ phai. Mọi tầm nhìn lớn sẽ trở thành nền sau 18-24 tháng.
Đây không phải vì lãnh đạo tệ. Là cách hệ thống xã hội hoạt động — cùng nguyên tắc kéo nhiệt độ cơ thể về 37°C.
Hệ quả: lãnh đạo phải liên tục bơm năng lượng mới để giữ tổ chức ở trạng thái muốn. Không phải vì tổ chức "hỏng" — vì hội tụ về mức nền là thiết kế.
Đừng kỳ vọng nhân viên duy trì mức cao mãi. Một nhân viên xuất sắc trong dự án đầu sẽ không xuất sắc với cùng cường độ trong dự án thứ năm. Không phải họ kém đi — là sự thích nghi khoái lạc áp dụng cho công việc.
Cấu trúc đúng: chu kỳ. Cao độ → bình thường → phục hồi → cao độ tiếp theo. Không phải cao độ vĩnh viễn.
Chỉ số đo lường (KPI) cần điều chỉnh theo thời gian. Một chỉ số tốt cho năm nay sẽ trở thành Goodhart sau 2-3 năm — tổ chức học cách tối ưu chỉ số thay vì tối ưu kết quả thật. Đây không phải vì tổ chức xấu. Là tính chất của hệ thống tối ưu — chúng hội tụ vào chỉ số.
Lãnh đạo tốt thay đổi chỉ số đủ thường xuyên để chống hội tụ. Không thay đổi mỗi quý — quá nhanh. Không giữ 10 năm — quá lâu. Thay đổi theo nhịp tự nhiên của sự thích nghi khoái lạc: 18-24 tháng.
Khủng hoảng là cơ chế tự sửa. Khi tổ chức gặp khủng hoảng, đó không phải thất bại — là hệ thống đang được buộc cập nhật. Cũng như sốt trong cơ thể không phải bệnh, là cơ chế chống nhiễm trùng. Lãnh đạo tốt không tránh khủng hoảng — họ dùng khủng hoảng để cập nhật giả định.
Hệ quả cho cá nhân
Đừng cố giữ trạng thái cao. Niềm vui sẽ phai. Tình yêu lãng mạn sẽ trở thành nền. Thành công sẽ thành mức nền. Không phải vì có gì sai — vì đây là thiết kế. Tận hưởng trạng thái cao khi nó ở đó, không đầu tư năng lượng vào việc đóng băng nó.
Đừng tin trạng thái thấp sẽ vĩnh viễn. Nỗi đau mất mát sẽ phai. Đau sẽ giảm cường độ. Trầm cảm sẽ thay đổi hình dạng. Đây cũng là thiết kế. Đầu tư vào quá trình, không đầu tư vào niềm tin rằng tình trạng hiện tại là cuối.
Hợp tác với thiết kế, không chống lại. Cố giữ một trạng thái tích cực mãi là chống lại sinh học. Cố thoát một trạng thái tiêu cực ngay lập tức cũng chống lại sinh học. Cho phép dao động xảy ra — chính dao động là sức khỏe.
Đừng kéo dài cường độ cao một cách giả tạo. Khi não muốn phai một cảm xúc, đừng tạo nghi lễ giữ nó sống. Hệ thống đang cố làm việc của nó. Hợp tác.
Cập nhật giả định định kỳ. Mỗi 2-3 năm, ngồi lại với các giả định nền tảng về cuộc đời mình. Cập nhật chủ động giảm áp lực tích lũy. Người không cập nhật chủ động sẽ bị buộc cập nhật qua khủng hoảng — đắt hơn nhiều.
Câu hỏi cuối
Sinh học không thiên vị. AI agent không thiên vị. Cả hai cung cấp cơ chế chống hội tụ cho mọi trạng thái — tốt và xấu.
Cùng cơ chế làm niềm vui phai làm đau phai. Cùng cơ chế làm tình yêu lãng mạn trở thành nền làm nỗi đau mất mát trở thành nền. Cùng cơ chế không cho phép tổ chức ổn định mãi không cho phép khủng hoảng kéo dài mãi.
Hệ thống cung cấp khả năng. Lựa chọn — về cái gì để bám, cái gì để buông — vẫn ở người dùng.
Hệ thống chống hội tụ. Nhưng nó không cho bạn biết hội tụ vào đâu — vì nó không có đích đến nào ưu ái. Nó chỉ không cho phép bạn đứng yên.
Câu hỏi không phải liệu tôi có thay đổi không. Bạn sẽ thay đổi — sinh học bảo đảm điều đó. Agent của bạn cũng vậy — code bảo đảm điều đó.
Câu hỏi là tôi đang tham gia quá trình thay đổi này một cách có ý thức, hay tôi đang để nó xảy ra với tôi.
Đó là sự khác biệt giữa người trưởng thành qua các thập kỷ — và người bị các thập kỷ đánh bại. Giữa tổ chức thích nghi qua khủng hoảng — và tổ chức bị khủng hoảng phá hủy. Giữa agent tự cập nhật — và agent kẹt trong điểm tối ưu cục bộ.
Sinh học không quan tâm bạn chọn cái nào. AI agent không quan tâm. Nhưng cuộc đời bạn, tổ chức bạn, sản phẩm bạn — có quan tâm.
- 1Khi không ai còn hiểu phần mềm nữa
- 2Thiết kế chống hội tụ: vì sao sinh học không cho phép đứng yên — và bài học cho AI agentsbạn đang ở đây