Trí tuệ tổng quát nhân tạo là gì
Trí tuệ tổng quát nhân tạo (AGI) là sự chuyển dịch và nâng cấp mô hình hoạt động của trí tuệ nhân tạo AI từ sự tối ưu hóa cụ thể sang khả năng nhận thức linh hoạt.
Trí tuệ tổng quát nhân tạo không chỉ đơn thuần là vmở rộng quy mô của Narrow AI, mà là khả năng tái tạo hoặc mô phỏng khả năng trí tuệ đa dạng của con người.
Theo định nghĩa từ sáng kiến phổ cập AI của Đại học Northern Michigan, AGI là loại trí tuệ nhân tạo sở hữu khả năng thấu hiểu, học hỏi và vận dụng tri thức qua một phạm vi rộng lớn các nhiệm vụ ở mức độ tương đương với trí tuệ con người.
Điểm cốt lõi phân biệt AGI không nằm ở tốc độ xử lý mà ở khả năng khái quát hóa (generalization) và chuyển giao tri thức (transfer learning) năng lực áp dụng những gì đã học từ bối cảnh này sang một bối cảnh hoàn toàn khác lạ mà không cần huấn luyện lại từ đầu.
OpenAI, trong sách trắng của mình, định nghĩa AGI là “các hệ thống tự chủ cao, có khả năng vượt trội hơn con người ở hầu hết các công việc có giá trị kinh tế.
Định nghĩa này đặc biệt chú trọng đến khía cạnh tác động thực tế và tính kinh tế của trí tuệ, thay vì chỉ tập trung vào các đặc điểm tâm lý học hay sinh học.
Trong khi đó, Google DeepMind tiếp cận AGI dưới góc độ năng lực giải quyết vấn đề, xem đó là hệ thống có khả năng học hỏi và thích nghi linh hoạt để đạt được các mục tiêu phức tạp trong những môi trường phong phú và biến động.
Đặc điểm của AGI
Tư duy trừu tượng và tổng quát hóa
Tư duy trừu tượng được các nhà nghiên cứu mệnh danh là “chén thánh” trong phát triển AGI.
Nó đánh dấu ranh giới phân biệt rõ nét giữa trí tuệ thực sự và khả năng xử lý dữ liệu tinh vi.
Nhận thức con người vượt trội ở chỗ có thể quan sát một số ví dụ hạn chế rồi rút ra các nguyên lý tổng quát thông qua quy nạp.
Sau đó áp dụng những nguyên lý này vào các tình huống mới thông qua suy diễn.
Khả năng này giúp chúng ta điều hướng trong những tình huống hoàn toàn xa lạ dựa trên sự hiểu biết khái niệm chứ không phải câu trả lời đã ghi nhớ sẵn.
Để AGI đạt được trình độ tư duy này, nó phải vượt qua những giới hạn của ghi nhớ máy móc (đặc trưng của các hệ thống học máy hiện tại).
Mặc dù AI đương đại có thể nhận diện khuôn mẫu với độ chính xác đáng kinh ngạc khi tiếp xúc với dữ liệu huấn luyện tương tự nhưng thường thất bại khi đối mặt với những tình huống lệch khỏi khuôn mẫu đã học.
AGI thực sự phải nắm bắt các cấu trúc logic tiềm ẩn trong dữ liệu, hiểu không chỉ mối tương quan bề mặt mà còn các mối quan hệ khái niệm sâu xa.
Vì vậy đòi hỏi phát triển các biểu diễn nội tại về những khái niệm trừu tượng – như sự công bằng, hiệu quả, hay quan hệ nhân quả có thể được áp dụng linh hoạt trong những ngữ cảnh hoàn toàn khác nhau.
Thử thách tối thượng của khả năng này nằm ở xử lý “những điều không biết về những điều không biết”.
Đó là các tình huống chưa từng xuất hiện trong dữ liệu huấn luyện và thậm chí có thể không giống bất kỳ vấn đề nào gặp trước đó.
Một trí tuệ tổng quát thực sự phải ngoại suy từ các nguyên lý cơ bản để giải quyết những thách thức hoàn toàn mới, giống như các nhà khoa học phát triển lý thuyết mới hay kỹ sư thiết kế các giải pháp chưa từng có.
Khả năng trừu tượng hóa và tổng quát hóa này biến đổi AI từ một công cụ tinh vi thành một người giải quyết vấn đề tự chủ có khả năng sáng tạo trí tuệ.
Ví dụ: Bác sĩ AI khi gặp một ca bệnh hiếm gặp mà không có trong dữ liệu huấn luyện (một biến chứng phức tạp của COVID-19 kết hợp với bệnh lý tim mạch đặc thù)-AGI phải tổng hợp kiến thức về sinh lý học, dược lý và các nguyên lý y khoa cơ bản.
Sau đó đề xuất phương án điều trị, thay vì chỉ khớp mẫu với các ca bệnh đã biết.
Học tập tự chủ và thích ứng
Khả năng học độc lập đánh dấu sự khác biệt quan trọng giữa AI hẹp và trí tuệ tổng quát thực sự.
Các hệ thống AI hiện tại hoạt động trong khuôn khổ giám sát của con người.
Vì vậy các kỹ sư liên tục tinh chỉnh siêu tham số, tuyển chọn tập dữ liệu và điều chỉnh kiến trúc khi hiệu suất giảm sút hoặc xuất hiện thách thức mới.
Sự phụ thuộc này giới hạn về cơ bản khả năng mở rộng quy mô và thích ứng, ràng buộc năng lực AI với sự can thiệp của con người.
AGI phải đạt được siêu học tập (meta-learning) bao gồm phát triển nhận thức về các khoảng trống kiến thức và chủ động tìm kiếm thông tin để giải quyết những thiếu sót mà không cần nhắc nhở từ bên ngoài.
Thay vì chờ con người xác định vấn đề và cung cấp giải pháp, AGI nên tự nhận ra khi kiến thức hiện tại chưa đủ và xây dựng chiến lược để thu thập sự hiểu biết cần thiết.
Học tự định hướng vượt xa việc chỉ xử lý nhiều dữ liệu hơn vì nó đòi hỏi phát triển các chiến lược học phù hợp với từng lĩnh vực vấn đề và điều chỉnh những chiến lược này dựa trên hiệu quả của chúng.
Hơn nữa, khả năng thích ứng tự chủ đòi hỏi phản ứng theo thời gian thực với môi trường thay đổi mà không cần lập trình lại.
Giống như con người điều chỉnh hành vi dựa trên phản hồi tức thời từ thế giới vật lý và xã hội, AGI phải liên tục tinh chỉnh các mô hình và chiến lược để đáp ứng thông tin mới.
Khả năng này không chỉ bao gồm cập nhật kiến thức thực tế mà còn sửa đổi các giả định cơ bản về cách hệ thống hoạt động khi đối diện với bằng chứng mâu thuẫn.
Năng lực tiến hóa tự định hướng là xác định điều cần cải thiện, quyết định cách cải thiện, và triển khai những cải tiến đó.
Nó đại diện cho yêu cầu nền tảng của trí tuệ có thể thực sự hoạt động độc lập trong các bối cảnh đa dạng và khó lường.
Ví dụ: Khi xuất hiện xu hướng tiêu thụ điện mới do sự phát triển của xe điện và điều hòa tiết kiệm năng lượng, một AGI thực sự sẽ tự nhận diện những thay đổi này.
Nó tìm hiểu về công nghệ mới, điều chỉnh mô hình dự báo phụ tải, và đề xuất tối ưu hóa vận hành tất cả mà không cần kỹ sư can thiệp và huấn luyện lại từ đầu.
Hiểu về nguyên nhân và kết quả
Các mô hình thống kê đương đại thể hiện trình độ đáng kinh ngạc trong việc xác định tương quan.
Chúng đã nhận ra đường phố ướt thường đi kèm với mưa hoặc một số triệu chứng tương quan với các bệnh cụ thể.
Tuy nhiên, tương quan khác về căn bản so với nhân quả, và sự khác biệt này trở nên then chốt đối với trí tuệ thực sự.
Hiểu rằng mưa gây ra đường ướt, thay vì chỉ quan sát sự xuất hiện đồng thời của chúng, tạo ra khả năng suy luận dự đoán và can thiệp hiệu quả vào thế giới.
Judea Pearl, một nhà khoa học máy tính tiên phong trong suy luận nhân quả, lập luận AGI phải leo lên “thang nhân quả”, tiến từ quan sát thụ động qua can thiệp đến suy luận phản thực tế.
Bậc cao nhất liên quan đến đặt câu hỏi “điều gì sẽ xảy ra nếu” về các kịch bản thay thế: “Điều gì đã xảy ra nếu tôi chọn cách khác?”
Tư duy phản thực tế tạo nền tảng cho việc hoạch định, tưởng tượng và sáng tạo khoa học.
Nó giúp trí tuệ mô phỏng trong tâm trí các hành động thay thế và hậu quả của chúng trước khi cam kết với hành vi cụ thể.
Đây là một khả năng trung tâm trong ra quyết định của con người.
Hiểu biết về nhân quả biến đổi AI từ một bộ nhận diện khuôn mẫu phản ứng thành một tác nhân chủ động có khả năng tư duy chiến lược.
Với các mô hình nhân quả, AGI có thể xác định nguyên nhân gốc rễ của vấn đề thay vì chỉ giải quyết triệu chứng.
Nó dự đoán tác động của các can thiệp trước khi triển khai và thiết kế các giải pháp mới thông qua hiểu cách các yếu tố khác nhau tương tác.
Vì thế chứng minh tính thiết yếu cho các ứng dụng phức tạp trong thế giới thực nơi dự đoán dựa trên tương quan thất bại như phát triển phương pháp điều trị y tế, thiết kế chính sách công hoặc tạo ra các công nghệ đổi mới.
Khả năng xây dựng và suy luận với các mô hình nhân quả đại diện cho bước nhảy vọt lượng tử vượt xa năng lực AI hiện tại, trao quyền cho máy móc không chỉ mô tả thế giới mà còn hiểu và định hình nó.
Ví dụ: Trong trường hợp dự án chống ngập, một hệ thống AI dựa trên tương quan có thể nhận thấy “khu vực A ngập khi mưa trên 100mm”.
Nhưng AGI với hiểu biết nhân quả sẽ phân tích: triều cường tăng 20cm + mưa 100mm + hệ thống thoát nước quá tải = ngập lụt.
Từ đó đề xuất giải pháp đúng trọng tâm: nâng cấp hệ thống thoát nước, xây dựng hồ điều hòa thay vì chỉ lắp đặt thêm máy bơm (giải quyết triệu chứng).
Đa phương thức và tri giác
Trí tuệ con người phát triển không thông qua thao tác ký hiệu trừu tượng biệt lập mà qua tương tác đa giác quan phong phú với thế giới vật lý.
Từ tuổi thơ, con người xây dựng sự hiểu biết thông qua nhìn, nghe, chạm và thao tác các vật thể.
Sau đó tích hợp những luồng cảm giác đa dạng này thành các mô hình tâm trí mạch lạc.
AGI cũng phải tổng hợp thông tin qua các phương thức thị giác, thính giác, xúc giác và ngôn ngữ để xây dựng “mô hình thế giới” toàn diện gắn kết suy luận trừu tượng với thực tại vật lý.
Tích hợp đa phương thức giải quyết điều mà chuyên gia robot Hans Moravec xác định là nghịch lý.
Các nhiệm vụ con người thấy thách thức về mặt trí tuệ như chơi cờ vua hoặc chứng minh toán học phức tạp, tỏ ra tương đối đơn giản đối với máy móc.
Tuy nhiên trong khi các hoạt động con người thực hiện dễ dàng như gấp quần áo, di chuyển trong không gian lộn xộn hoặc nhận diện vật thể từ góc độ bất thường vẫn cực kỳ khó khăn cho AI.
Nghịch lý này cho thấy phần lớn trí tuệ con người không nằm ở suy luận logic trừu tượng mà ở sự tích hợp liền mạch thông tin cảm giác với hành động vật lý, được tinh chỉnh qua hàng triệu năm thích ứng tiến hóa.
Để AGI hoạt động hiệu quả trong thế giới thực, nó phải phát triển cái mà các nhà khoa học nhận thức gọi là “nhận thức hiện thân”.
Đó là trí tuệ được gắn kết trong tương tác vật lý thay vì xử lý thuần túy trừu tượng.
Vì thế đòi hỏi không chỉ xử lý dữ liệu đa phương thức mà hiểu cách các phương thức cảm giác khác nhau liên hệ với nhau và với các hành động vật lý.
Một trí tuệ tổng quát thực sự phải nắm bắt hình dáng thị giác của một vật thể tương ứng với các thuộc tính xúc giác cụ thể, âm thanh cung cấp thông tin về các sự kiện ngoài tầm nhìn và ngôn ngữ mô tả các thực tại vật lý và xã hội.
Do đó giúp AGI điều khiển hệ thống robot để thao tác vật lý, điều hướng trong môi trường phức tạp và giải quyết vấn đề đòi hỏi cả suy luận trừu tượng lẫn hành động cụ thể.
Đạt được nhận thức đa phương thức vững chắc biến đổi AI từ bộ xử lý văn bản vô hình thành các tác nhân có khả năng tương tác có ý nghĩa với thế giới vật chất.
Ví dụ: Xét robot phân loại trái cây tại nhà máy chế biến, AGI thực sự không chỉ nhìn thấy màu sắc và hình dạng (thị giác), mà còn cảm nhận độ chín qua âm thanh khi gõ nhẹ (thính giác), đánh giá độ mềm qua cảm biến lực (xúc giác).
Nó sẽ hiểu rằng “trái xanh chưa chín” trong ngôn ngữ tương ứng với kết cấu cứng và hàm lượng đường thấp trong thực tế.
Sự tích hợp này giúp robot đưa ra quyết định chính xác về phân loại và xử lý phù hợp cho từng loại trái cây.
Các giai đoạn phát triển của AI
| Cấp độ | Tên gọi (Designation) | Định nghĩa Hiệu suất | Ví dụ Tương đương | Trạng thái Hiện tại |
|---|---|---|---|---|
| Cấp độ 0 | Không có AI | Máy tính hoạt động theo quy tắc cố định, không có khả năng học. | Máy tính bỏ túi, phần mềm biên dịch. | Đã phổ biến từ thế kỷ 20 |
| Cấp độ 1 | Mới nổi (Emerging) | Hiệu suất tương đương hoặc tốt hơn người không có chuyên môn (unskilled human) ở hầu hết các tác vụ. | Các mô hình ngôn ngữ lớn (LLM) đời đầu như GPT-3, BERT. | Đã đạt được |
| Cấp độ 2 | Thành thạo (Competent) | Tốt hơn 50% người trưởng thành có kỹ năng (skilled adults) ở hầu hết các tác vụ. | Các LLM hiện đại như GPT-4, Gemini 1.5, Claude 3.5. | Đã đạt được |
| Cấp độ 3 | Chuyên gia (Expert) | Tốt hơn 90% người trưởng thành có kỹ năng. | Các LLM hiện đại như GPT-5, Gemini 3, Claude 4.5. | Đã đạt được |
| Cấp độ 4 | Thiên tài (Virtuoso) | Tốt hơn 99% người trưởng thành. | Chưa đạt được | Mục tiêu trung hạn |
| Cấp độ 5 | Siêu trí tuệ (Superhuman/ASI) | Vượt trội hơn tất cả con người ở mọi tác vụ nhận thức. | Trí tuệ siêu nhân tạo (Artificial Superintelligence). | Mục tiêu dài hạn/giả thuyết |
Kiến trúc kỹ thuật
Giả thuyết quy mô và mô hình nền tảng
Xu hướng chủ đạo trong phát triển AI hiện đại dựa trên một nguyên lý đơn giản nhưng sâu sắc: trí thông minh xuất hiện từ quy mô.
Các phòng nghiên cứu hàng đầu như OpenAI, Anthropic và Google DeepMind đã chứng minh khi mạng nơ-ron ngày càng lớn hơn thì chúng tự động phát triển những khả năng mà con người chưa từng lập trình sẵn.
Hiện tượng này, được gọi là đặc tính tự phát sinh (emergent properties), đã thay đổi hoàn toàn cách chúng ta hiểu về tạo ra trí thông minh máy móc.
Trung tâm của phương pháp này là kiến trúc Transformer cùng với cơ chế tự chú ý (self-attention) mang tính đột phá.
Khi huấn luyện các mô hình trên hàng nghìn tỷ từ (token) được thu thập từ internet, những hệ thống này học cách dự đoán từ tiếp theo trong chuỗi thông qua nhận diện mẫu thống kê thuần túy.
Điều đáng kinh ngạc là ở một điểm nào đó trên đường cong mở rộng quy mô, các mô hình ngôn ngữ này vượt xa mục tiêu huấn luyện ban đầu.
Chúng bắt đầu thể hiện những hành vi phức tạp như dịch giữa các ngôn ngữ, tóm tắt tài liệu phức tạp, giải quyết vấn đề toán học, thậm chí viết mã máy tính hoạt động được.
Năng lực tự phát sinh cho thấy rằng bản thân trí thông minh có thể là kết quả tự nhiên khi tiếp xúc đủ nhiều với các mẫu dữ liệu và có đủ khả năng xử lý.
Ví dụ: Tại công ty phần mềm, khi triển khai mô hình ngôn ngữ lớn để hỗ trợ lập trình viên, ban đầu hệ thống chỉ được huấn luyện để tự động hoàn thiện mã.
Nhưng khi mở rộng quy mô lên 7 tỷ tham số và huấn luyện trên 500GB mã nguồn đa ngôn ngữ, mô hình tự phát triển khả năng phát hiện lỗi bảo mật.
Chúng đề xuất cấu trúc dự án tối ưu, thậm chí giải thích logic nghiệp vụ là những kỹ năng không hề được lập trình sẵn.
Các phiên bản mới nhất của mô hình nền tảng đã đẩy mạnh xu hướng này hơn nữa.
Mô hình o1 và o3 của OpenAI tích hợp khả năng suy luận theo chuỗi (Chain-of-Thought) trực tiếp vào quá trình huấn luyện học tăng cường.
Vì vậy giúp chúng “suy nghĩ” qua từng bước trước khi đưa ra câu trả lời.
Khả năng siêu nhận thức này đã tạo ra bước đột phá trong hiệu suất xử lý các bài toán toán học cấp tiến sĩ và lập trình phức tạp.
Từ đó chứng minh mở rộng quy mô có thể được tăng cường thông qua các cải tiến kiến trúc khuyến khích suy luận có chủ đích thay vì phản ứng phản xạ.
Tuy nhiên, cách tiếp cận tập trung vào quy mô này đối mặt với nhiều chỉ trích từ các nhà khoa học nhận thức và những người hoài nghi về AI.
Các nhà nghiên cứu như Gary Marcus cho rằng ngay cả những mô hình ngôn ngữ khổng lồ vẫn chỉ là “con vẹt ngẫu nhiên” (stochastic parrots).
Đó là những hệ thống kết hợp lại các mẫu thống kê một cách tinh vi nhưng thiếu sự hiểu biết ngữ nghĩa thực sự hoặc khả năng suy luận về thế giới thực.
Hiện tượng ảo giác (hallucinations – tạo ra thông tin sai với vẻ tự tin) và những mâu thuẫn logic vẫn tồn tại ngay cả trong những mô hình lớn nhất.
Do đó cho thấy nếu chỉ mở rộng quy mô đơn thuần có thể gặp phải hiệu quả giảm dần nếu không giải quyết những hạn chế kiến trúc cơ bản trong cách các hệ thống này biểu diễn và xử lý tri thức.
AI neuro-symbolic: Kết nối trực giác và logic
Nhận thấy những giới hạn của phương pháp thuần nơ-ron, xu hướng AI neuro-symbolic đã nổi lên như một ứng cử viên đầy tiềm năng cho kiến trúc AGI bền vững.
Khung làm việc lai này kết hợp rõ ràng điểm mạnh về nhận diện mẫu của học sâu với khả năng suy luận logic của AI symbolic truyền thống.
Chúng phản ánh lý thuyết xử lý kép (dual-process theory) trong nhận thức con người là phân biệt giữa tư duy trực giác nhanh và suy luận có chủ đích chậm.
Thành phần nơ-ron của các hệ thống này xử lý tri giác, nhận diện mẫu từ dữ liệu cảm biến thô và xử lý ngôn ngữ tự nhiên mờ về cơ bản đóng vai trò System 1 trong thuật ngữ nhận thức.
Mạng nơ-ron xuất sắc để trích xuất các đặc trưng có ý nghĩa từ hình ảnh, nhận dạng mẫu giọng nói và nắm bắt ngữ nghĩa tinh tế của ngôn ngữ con người.
Đây là những nhiệm vụ mà viết quy tắc tường minh trở nên không khả thi do tính phức tạp và đa dạng của đầu vào thế giới thực.
Bổ sung cho nền tảng tri giác này, thành phần symbolic quản lý suy luận logic, lập kế hoạch và suy diễn dựa trên quy tắc.
Chúng sử dụng các biểu diễn tri thức có cấu trúc như đồ thị tri thức (knowledge graphs) và hệ thống logic hình thức.
Đây chính là tư duy System 2, suy luận có chủ đích, từng bước một mà con người áp dụng cho toán học, phân tích pháp lý và lập kế hoạch chiến lược.
Thông qua duy trì các biểu diễn symbolic rõ ràng, những hệ thống này có thể thực hiện các suy diễn suy diễn chứng minh được là chính xác và theo dõi đường đi suy luận theo cách mà mạng nơ-ron thuần túy không thể làm được.
Ví dụ: Bệnh viện đang thử nghiệm hệ thống chẩn đoán lai neuro-symbolic cho bệnh gan.
Thành phần nơ-ron phân tích hình ảnh siêu âm, CT scan để phát hiện các bất thường về kết cấu và hình dạng gan.
Sau đó, thành phần symbolic áp dụng các quy tắc lâm sàng từ các hướng dẫn của Bộ Y tế và kinh nghiệm chuyên gia.
- Nếu GOT > 40 U/L VÀ GPT > 40 U/L VÀ phát hiện tổn thương dạng nhỏ giọt trên hình ảnh → Viêm gan mạn tính.
- Nếu AFP > 400 ng/mL VÀ phát hiện khối u đặc → Nghi ngờ ung thư gan giai đoạn sớm”).
Kết quả là độ chính xác chẩn đoán đạt 94% so với chỉ 87% khi dùng mạng nơ-ron thuần túy và bác sĩ có thể kiểm tra từng bước suy luận của hệ thống.
Sự kết hợp này mang lại nhiều lợi thế quan trọng cho phát triển AGI.
Khả năng giải thích trở nên khả thi vì thành phần suy luận symbolic có thể diễn giải quá trình ra quyết định dưới dạng con người hiểu được.
Đây là một yêu cầu thiết yếu khi triển khai trong chẩn đoán y tế, hệ thống pháp lý và quản lý tài chính nơi tính trách nhiệm của thuật toán là bắt buộc.
Hiệu quả dữ liệu cải thiện đáng kể vì các quy tắc symbolic tạo khả năng tổng quát hóa từ ít ví dụ hơn, giống như con người có thể áp dụng các nguyên tắc trừu tượng cho tình huống mới mà không cần huấn luyện lại nhiều.
Quan trọng nhất, suy luận đáng tin cậy trở nên khả thi vì các thành phần symbolic có thể đảm bảo tính nhất quán logic trong các lĩnh vực đòi hỏi độ chính xác tuyệt đối như chứng minh toán học hoặc hệ thống điều khiển an toàn tối quan trọng.
Thách thức tích hợp nằm ở tạo luồng thông tin liền mạch giữa tri giác nơ-ron và suy luận symbolic để dạy hai mô hình tính toán khác biệt về cơ bản này giao tiếp hiệu quả.
Nghiên cứu hiện tại khám phá nhiều cơ chế kết nối khác nhau.
Từ bộ chuyển đổi neural-symbolic chuyển các biểu diễn phân tán thành các vị từ symbolic.
Ngoài ra còn kiến trúc khả vi đầu-cuối (end-to-end differentiable) nơi các thao tác symbolic trở thành các thành phần có thể học được của tối ưu hóa dựa trên gradient.
Mô hình thế giới và suy luận nhân quả
Một hạn chế cơ bản của các hệ thống AI đương đại là thiếu mô hình thế giới thực sự.
Đó là các biểu diễn nội tại về cách thực tại vật lý vận hành bao gồm mối quan hệ nhân quả, tính vĩnh viễn của đối tượng và các ràng buộc cơ bản như trọng lực và định luật bảo toàn.
Mặc dù các mô hình ngôn ngữ lớn có thể thuộc lòng các sự kiện về vật lý nhưng chúng thiếu sự hiểu biết trực giác giúp ngay cả trẻ nhỏ cũng dự đoán được rằng một vật không được đỡ sẽ rơi xuống hoặc đẩy mạnh hơn sẽ khiến vật di chuyển nhanh hơn.
Các nhà nghiên cứu như Yann LeCun tại Meta đang tiên phong các kiến trúc mới.
Kiến trúc dự đoán nhúng chung (Joint Embedding Predictive Architecture – JEPA) nhằm giúp hệ thống AI học các mô hình dự đoán về môi trường thông qua quan sát và tương tác.
Thay vì chỉ nhận diện mẫu trong dữ liệu tĩnh, các mô hình thế giới này tạo khả năng mô phỏng.
Đó là khả năng chiếu về phía trước trong thời gian và dự đoán hậu quả của hành động trước khi thực hiện chúng.
Khả năng này phản ánh cách con người liên tục chạy các mô phỏng nội tại khi lập kế hoạch di chuyển, dự đoán tương tác xã hội hoặc thiết kế thí nghiệm.
Quan trọng hơn, các mô hình thế giới hiệu quả phải tích hợp suy luận nhân quả thay vì chỉ phát hiện tương quan.
Sự khác biệt giữa “quan sát” và “hành động”—giữa nhận thấy hai biến cùng xảy ra với việc hiểu rằng thao tác một biến sẽ ảnh hưởng đến biến kia là đại diện cho một bước nhảy nhận thức sâu sắc.
Các sáng kiến gần đây như CausalARC và các khung mô hình thế giới nhân quả đang phát triển các bộ tiêu chuẩn để đánh giá liệu hệ thống AI có thể suy luận về can thiệp và phản thực (counterfactuals).
Điều gì sẽ xảy ra nếu tôi hành động khác đi? Điều gì đã gây ra kết quả này thay vì chỉ dự đoán nó?
Ví dụ: Các công ty viễn thông đang nghiên cứu mô hình thế giới nhân quả cho hệ thống dự báo lưu lượng mạng 5G.
Thay vì chỉ nhận diện tương quan “lưu lượng tăng vào 20h tối”, hệ thống hiểu quan hệ nhân quả: “Các sự kiện thể thao phát sóng trực tiếp → Tăng đột biến số người xem streaming → Quá tải băng thông khu vực đô thị.
Khi biết World Cup diễn ra, hệ thống chủ động tăng băng thông tại các quận trung tâm trước 30 phút, giảm 65% tình trạng nghẽn mạng so với phương pháp dự đoán thống kê thông thường.
Hơn nữa, khi một trạm gốc gặp sự cố, hệ thống mô phỏng được chuỗi hậu quả (chuyển tải sang trạm lân cận → quá tải trạm đó → ảnh hưởng đến khu vực rộng hơn) và đề xuất giải pháp can thiệp tối ưu.
Suy luận khoa học đòi hỏi xây dựng giả thuyết về cơ chế nhân quả và thiết kế thí nghiệm để kiểm chứng.
Xây dựng chính sách đòi hỏi dự đoán hậu quả của can thiệp vào các hệ thống xã hội phức tạp.
Chẩn đoán y khoa cần phân biệt triệu chứng với nguyên nhân gốc rễ.
Nếu không có mô hình nhân quả, hệ thống AI vẫn bị mắc kẹt trong vai trò người quan sát thụ động, không thể trở thành tác nhân thực sự định hình môi trường thông qua hành động có cơ sở.
Con đường phía trước liên quan đến kết hợp khả năng học biểu diễn phức tạp từ dữ liệu của mạng nơ-ron với các khung suy luận nhân quả hình thức thực thi tính nhất quán với các cấu trúc nhân quả đã biết.
Các phương pháp lai đang nổi lên, trong đó các thành phần nơ-ron học nhận diện các mối quan hệ nhân quả tiềm năng từ dữ liệu quan sát, trong khi suy luận symbolic xác thực các giả thuyết này dựa trên kiến thức nền tảng và các ràng buộc logic.
Trí thông minh với tương tác vật lý
Một nhóm ngày càng đông các nhà nghiên cứu cho rằng trí thông minh tổng quát thực sự không thể xuất hiện chỉ từ phần mềm phi vật thể.
Giả thuyết nhận thức hiện thân (embodied cognition) cho thấy sự hiểu biết thực sự đòi hỏi tương tác vật lý với thế giới.
Đó là trí thông minh về cơ bản được gắn kết trong trải nghiệm cảm giác-vận động hơn là thao tác ký hiệu trừu tượng.
Thông qua các cảm biến phát hiện lực, nhiệt độ và quan hệ không gian, cùng với các bộ truyền động tạo khả năng thao tác vật lý, hệ thống AI hiện thân thu được kiến thức ngầm mà huấn luyện dựa trên văn bản không bao giờ nắm bắt được hoàn toàn.
Một mô hình ngôn ngữ có thể ghi nhớ sắt nặng hơn bông nhưng một robot thực sự đã nâng các vật thể có khối lượng khác nhau sẽ phát triển sự hiểu biết trực giác về trọng lượng, quán tính và mối quan hệ giữa lực và gia tốc.
Kiến thức gắn kết này tạo khả năng suy luận vững chắc hơn về các tình huống vật lý và cung cấp cơ chế phát hiện lỗi.
Đó là nếu một hành động tạo ra phản hồi cảm biến không mong đợi, có gì đó đã sai.
Sự hội tụ của các mô hình nền tảng với robot hình người đang mở ra những con đường mới hướng tới AGI hiện thân vật lý.
Các robot được trang bị mô hình ngôn ngữ lớn làm lõi nhận thức có thể tận dụng lượng lớn kiến thức văn bản đồng thời học các kỹ năng cảm giác-vận động qua tương tác.
Những hệ thống này đang bắt đầu thể hiện năng lực trong nhiều nhiệm vụ vật lý đa dạng.
Từ lắp ráp công nghiệp đòi hỏi thao tác chính xác đến các tình huống chăm sóc người cao tuổi đòi hỏi tiếp xúc nhẹ nhàng, phù hợp ngữ cảnh với con người.
Ví dụ: Tập đoàn y tế đang phát triển robot cho chăm sóc người già tại các viện dưỡng lão. Robot tích hợp GPT-4 để giao tiếp tiếng Việt tự nhiên, nhưng điều quan trọng là kiến thức hiện thân qua cảm biến lực và thị giác 3D.
Khi hỗ trợ người cao tuổi đứng lên từ ghế, robot không chỉ biết câu “Cô ơi, cháu nâng cô lên nhé” mà còn cảm nhận được lực kháng cự từ khớp gối yếu (qua cảm biến áp lực 0-100N).
Vì thế chúng tự điều chỉnh tốc độ nâng từ 5cm/s xuống 2cm/s và góc nghiêng cơ thể phù hợp với từng người.
Kinh nghiệm vật lý này không thể học được từ văn bản mà robot cần thực sự “trải nghiệm” hàng nghìn lần đỡ người với trọng lượng và thể trạng khác nhau để phát triển kỹ năng an toàn.
Hơn nữa, sự hiện thân buộc hệ thống AI phải đối mặt với các ràng buộc thế giới thực mà mô phỏng thuần túy bỏ qua.
Tính bất khả nghịch của hành động, sự không thể dự đoán của vật liệu vật lý, nhu cầu phối hợp cảm biến-vận động liên tục và hậu quả của thất bại.
Những thách thức này thúc đẩy phát triển trí thông minh mạnh mẽ, thích ứng thay vì tối ưu hóa mong manh cho các tiêu chuẩn được định nghĩa hẹp.
Khi các robot hình người ngày càng có năng lực và giá cả phải chăng hơn, chúng cung cấp bãi thử nghiệm cho kiến trúc AGI trong môi trường đòi hỏi khắt khe nhất.
Đó là thế giới vật lý lộn xộn, không thể đoán trước mà con người phải điều hướng hàng ngày.
Tiêu chuẩn kiểm tra và đo lường AGI
Kiểm tra năng lực thực thi
Các bài kiểm tra năng lực thực thi đại diện cho phương pháp thực dụng nhất trong đánh giá AGI.
Chúng yêu cầu hệ thống trí tuệ nhân tạo phải điều hướng trong độ phức tạp lộn xộn của môi trường vật lý và xã hội nơi các thông số không thể được định nghĩa chính xác.
Những bài kiểm tra này cố tình tránh điều kiện phòng thí nghiệm được kiểm soát, thay vào đó ưu tiên các kịch bản thực tế đầy biến động, mơ hồ và thử thách bất ngờ.
Đây là những yếu tố đòi hỏi khả năng giải quyết vấn đề thực sự thay vì chỉ đưa ra phản ứng theo kịch bản có sẵn.
Bài kiểm tra pha cà phê (Coffee Test), do đồng sáng lập Apple Steve Wozniak đề xuất, minh họa triết lý này qua vẻ ngoài đơn giản đầy lừa dối.
Một robot được trang bị AGI phải bước vào một ngôi nhà người Mỹ xa lạ, tự động xác định vị trí nhà bếp trong mặt bằng tùy ý.
Nó phải nhận diện máy pha cà phê từ hàng trăm mẫu và cấu hình khả dĩ, tìm kiếm trong tủ để lấy nguyên liệu phù hợp, và pha thành công một cốc cà phê hoàn chỉnh.
Nhiệm vụ tưởng chừng bình thường này thực tế đòi hỏi sự tích hợp tinh vi của nhiều lĩnh vực nhận thức:
- Hệ thống thị giác máy tính phải nhận dạng đối tượng qua sự biến đổi khổng lồ về hình thức và bối cảnh.
- Khả năng điều khiển robot đòi hỏi kỹ năng vận động tinh vi tương đương con người.
- Lý luận ngữ nghĩa phải vận hành linh hoạt trong không gian ba chiều để hiểu quan hệ không gian và khả năng chức năng của các vật thể.
Ví dụ: Robot phải phân biệt máy pha cà phê Nespresso hiện đại với máy phin truyền thống Việt Nam, hoặc máy espresso công nghiệp vì mỗi loại đòi hỏi quy trình vận hành hoàn toàn khác biệt.
Điểm xuất sắc của bài kiểm tra này nằm ở cách nó phơi bày khoảng cách giữa khả năng AI hạn hẹp và trí thông minh tổng quát thực sự.
Trong khi các hệ thống chuyên biệt có thể vượt trội trong nhận dạng đối tượng hoặc kẹp gắp robot riêng lẻ, AGI đòi hỏi sự phối hợp liền mạch của những khả năng này trong môi trường không thể đoán trước, nơi không có hai gian bếp nào giống hệt nhau.
Bài kiểm tra sinh viên đại học robot (Robot College Student Test), do nhà nghiên cứu AGI Ben Goertzel khởi xướng, đưa những yêu cầu này lên tầm lĩnh vực xã hội và thể chế.
Một hệ thống AGI phải ghi danh vào trường đại học cùng sinh viên con người.
Nó tham dự các bài giảng và tiếp thu hướng dẫn được truyền đạt bằng ngôn ngữ tự nhiên, hoàn thành bài tập không chỉ đòi hỏi ghi nhớ kiến thức mà còn tổng hợp sáng tạo và phân tích phê phán.
Cuối cùng đạt bằng cấp thông qua hiệu suất học tập liên tục qua nhiều học kỳ.
Ví dụ: Một hệ thống AGI đăng ký học ngành Khoa học Máy tính thì phải hiểu các bài giảng tiếng Việt về lý thuyết đồ thị.
Chúng cần hoàn thành đồ án nhóm với sinh viên người, tham gia thảo luận trong diễn đàn lớp học và xử lý những tình huống như thay đổi lịch thi đột xuất hay yêu cầu nộp bài sớm hơn deadline ban đầu.
Khung đánh giá này kiểm tra các chiều kích vượt xa xử lý nhận thức thuần túy:
- Trí thông minh xã hội để điều hướng văn hóa khuôn viên và hợp tác với đồng nghiệp.
- Kiến thức thủ tục để hiểu và tuân thủ các bộ máy thể chế phức tạp.
- Tính nhất quán theo thời gian để duy trì hiệu suất qua khung thời gian kéo dài thay vì các trường hợp kiểm tra riêng lẻ.
Môi trường đại học trình bày các bối cảnh liên tục thay đổi, giáo sư khác nhau, định dạng bài tập đa dạng, nội dung khóa học phát triển.
Do đó ngăn chặn mọi hình thức ghi nhớ máy móc hoặc hành vi theo kịch bản.
Bổ sung cho những bài kiểm tra này, Bài kiểm tra việc làm (Employment Test) do Nils Nilsson đề xuất chuyển đánh giá sang xác thực kinh tế.
AGI phải thực hiện công việc có giá trị kinh tế như phát triển phần mềm, kế toán từ xa, hoặc dịch vụ khách hàng ở mức độ vượt hoặc ngang với hiệu suất con người trong khi vận hành với chi phí thấp hơn trong thời gian dài.
Ví dụ: Một hệ thống AGI làm lập trình viên phải tự viết code cho dự án banking, review code của đồng nghiệp, tham gia daily standup meeting và xử lý bug reports từ khách hàng.
Tất cả với năng suất ít nhất ngang bằng một developer middle level người Việt, nhưng chi phí vận hành chỉ khoảng 60-70% mức lương thị trường.
Tiêu chí này đưa vào trách nhiệm giải trình dựa trên thị trường:
- Trí thông minh thực sự phải tạo ra giá trị hữu hình trong môi trường cạnh tranh nơi người lao động con người thiết lập tiêu chuẩn hiệu suất cơ bản.
- Yêu cầu khung thời gian dài hạn ngăn chặn các cuộc trình diễn một lần hoặc kịch bản được dàn dựng cẩn thận.
- Đòi hỏi độ tin cậy và nhất quán chứng minh tính hữu dụng thực tế.
Bài kiểm tra này ngầm đo lường liệu AGI có đạt đủ sức bền để thay thế hoặc tăng cường lao động con người trong các lĩnh vực công việc tri thức, đại diện cho ngưỡng năng lực tổng quát với hàm ý kinh tế và xã hội sâu sắc.
Tiêu chuẩn đo lường khả năng lý luận
Trong khi các bài kiểm tra năng lực thực thi xác thực năng lực vận hành, chúng có nguy cơ bị “đánh lừa” thông qua khớp mẫu ngày càng tinh vi với dữ liệu huấn luyện hoặc các heuristic được thiết kế cẩn thận cho các kịch bản cụ thể.
Bộ dữ liệu Trừu tượng và Lý luận (Abstraction and Reasoning Corpus – ARC-AGI), được François Chollet tại Google giới thiệu năm 2019.
Nó giải quyết hạn chế này bằng nhắm mục tiêu cụ thể vào trí thông minh linh hoạt (fluid intelligence).
Đó là khả năng giải quyết vấn đề mới lạ thông qua lý luận trừu tượng thay vì kiến thức đã học hoặc các mẫu đã ghi nhớ.
ARC-AGI xuất hiện để đáp ứng trực tiếp một điểm yếu nghiêm trọng trong đánh giá AI.
Các mô hình ngôn ngữ lớn và hệ thống deep learning khác ngày càng đạt điểm ngang mức con người trên các bài kiểm tra chuẩn hóa như SAT, kỳ thi luật sư BAR và kỳ thi cấp phép y khoa không phải thông qua hiểu biết thực sự.
Đó la fnhờ tận dụng bộ dữ liệu huấn luyện khổng lồ, thứ tạo điều kiện nhận dạng mẫu tinh vi trên hàng triệu ví dụ.
Những hệ thống này “học vẹt” câu trả lời đúng mà không phát triển năng lực lý luận cơ bản mà con người sử dụng.
Ví dụ: Giống như một học sinh Việt Nam có thể ghi nhớ công thức toán học và đạt điểm cao trong kỳ thi trắc nghiệm, nhưng lại không biết cách áp dụng linh hoạt khi gặp bài toán thực tế khác biệt .
AI cũng vậy, chúng “thuộc lòng” các mẫu nhưng thiếu khả năng suy luận sáng tạo.
ARC-AGI cố tình vượt qua điểm yếu này thông qua các câu đố dựa trên lưới (grid-based puzzles) đòi hỏi xác định quy tắc chuyển đổi chỉ từ vài ví dụ.
Đó là một kịch bản học ít mẫu (few-shot learning) nơi khớp mẫu bạo lực trở nên không khả thi về mặt tính toán.
Sự tinh tế của ARC-AGI nằm ở nền tảng dựa trên Core Knowledge priors (tiền đề kiến thức cốt lõi).
Đó là các khái niệm nhận thức cơ bản mà trẻ em con người tiếp thu sớm trong quá trình phát triển và mang theo như công cụ lý luận bẩm sinh.
Chúng bao gồm:
- Tnh vĩnh viễn của vật thể (hiểu rằng vật thể tiếp tục tồn tại ngay khi không nhìn thấy).
- Tính liên tục và gắn kết (vật thể di chuyển dọc theo đường dẫn kết nối.
- Duy trì tính toàn vẹn cấu trúc), nhận dạng đối xứng và quan hệ topo (hiểu các khái niệm như sự chứa đựng, kết nối và sắp xếp không gian).
Ví dụ: Một câu đố ARC-AGI có thể hiển thị ba lưới với các hình vuông màu sắc khác nhau.
Trong hai ví dụ đầu, người giải đố thấy một mẫu: các hình vuông đỏ được “nhân đôi” theo chiều dọc, trong khi hình vuông xanh xoay 90 độ.
Họ phải áp dụng quy tắc này cho lưới thứ ba chưa thấy.
Trẻ em 8-10 tuổi có thể giải điều này một cách trực quan nhưng các AI model như GPT-4 hay Claude phiên bản cũ gặp khó khăn lớn.
Các câu đố trình bày thử thách chuyển đổi thị giác yêu cầu tổng hợp những khái niệm cơ bản này thành các chiến lược giải quyết vấn đề mới lạ được điều chỉnh cho từng câu đố độc nhất.
Bài kiểm tra được thiết kế sao cho con người điển hình, kể cả trẻ em có thể giải những câu đố này tương đối dễ dàng thông qua lý luận trực giác, trong khi các hệ thống AI được huấn luyện trên hàng tỷ tham số gặp khó khăn.
Khoảng cách hiệu suất này tiết lộ sự khác biệt cơ bản giữa trí thông minh con người và kiến trúc AI đương đại.
Con người tiếp cận các vấn đề ARC-AGI bằng cách nhanh chóng xây dựng các mô hình tinh thần về quy tắc cơ bản là viết một “chương trình” trong tâm trí giải thích mẫu chuyển đổi và có thể áp dụng cho các trường hợp mới.
Ngược lại, các hệ thống AI cố gắng khớp vấn đề với các mẫu thấy trong quá trình huấn luyện.
Đây là một chiến lược thất bại khi đối mặt với các cấu trúc logic thực sự mới lạ.
Bài kiểm tra đặc biệt yêu cầu tổng hợp tại thời điểm kiểm tra (test-time synthesis).
Đó la fkhả năng tạo ra các phương pháp giải quyết vấn đề mới một cách động khi gặp thử thách xa lạ, thay vì truy xuất các giải pháp đã học trước.
Trong nhiều năm sau khi ARC-AGI được giới thiệu, các hệ thống AI có dưới 20% độ chính xác trên benchmark này, ngay cả khi chúng đạt hiệu suất siêu con người trên các đánh giá học thuật truyền thống.
Sự thất bại dai dẳng này chứng minh rằng mở rộng quy mô mô hình và dữ liệu huấn luyện đơn thuần không thể thu hẹp khoảng cách đến lý luận trừu tượng thực sự.
Tuy nhiên, năm 2025 đánh dấu một đột phá lịch sử: Mô hình o3 của OpenAI đạt 87,5% độ chính xác trên bộ đánh giá bán riêng tư khi được cấu hình với tài nguyên tính toán cao, tiến gần đến baseline trung bình của con người.
Kết quả này đại diện cho lần đầu tiên một hệ thống máy móc đã chứng minh khả năng lý luận trừu tượng có thể so sánh với con người trên một benchmark được thiết kế đặc biệt để chống lại các phương pháp khớp mẫu.
Ví dụ: Thành tựu này giống như việc một hệ thống AI lần đầu tiên giải được bài toán sáng tạo trong kỳ thi Olympic Toán quốc tế không phải bằng cách tra cứu lời giải tương tự đã học mà thực sự hiểu logic và phát triển chiến lược mới.
Nếu áp dụng vào giáo dục, đây sẽ là bước tiến từ “học vẹt” sang “tư duy phản biện”, điều mà hệ thống giáo dục đang hướng tới.
Thành tựu này gợi ý các đổi mới kiến trúc vượt ra ngoài mở rộng quy mô đơn giản.
Chúng có thể kết hợp các mô-đun lý luận rõ ràng, khả năng tổng hợp chương trình hoặc các mô hình học tập khác biệt cơ bản.
Đó là bắt đầu mở khóa trí thông minh linh hoạt, tổng quát hóa được vốn định nghĩa chữ “tổng quát” trong AGI.
Có thể bạn quan tâm
Liên hệ
Địa chỉ
Tầng 3 Toà nhà VNCC
243A Đê La Thành Str
Q. Đống Đa-TP. Hà Nội
info@comlink.com.vn
Phone
+84 98 58 58 247
