NVIDIA Confidential Computing bảo mật trên kiến trúc của GPU

NVIDIA Confidential Computing
Comlink Telecommunications

NVIDIA Confidential Computing là gì

NVIDIA Confidential Computing là tính năng bảo mật tích hợp, dựa trên nền tảng phần cứng của kiến trúc GPU Hopper và sau đó là nâng cấp lên kiến trúc Blackwell.

Cách tiếp cận của NVIDIA là mở rộng khái niệm TEE dựa trên máy ảo (Confidential Virtual Machine – CVM) từ bộ xử lý trung tâm (CPU) sang các bộ xử lý đồ họa (GPU) hiệu năng cao của hãng.

Điều này đòi hỏi hệ thống máy chủ phải được trang bị CPU hỗ trợ các công nghệ TEE tương ứng như AMD Secure Encrypted Virtualization, Secure Nested Paging (SEV-SNP) hoặc Intel Trust Domain Extensions (TDX).

Bằng cách tích hợp liền mạch với các TEE trên CPU, NVIDIA CC giúp bảo vệ toàn bộ máy ảo bao gồm cả các tác vụ được tăng tốc bởi GPU mà không yêu cầu người dùng phải thay đổi mã nguồn ứng dụng hiện có của họ.

Những lợi ích chính mà giải pháp NVIDIA Confidential Computing nhấn mạnh bao gồm: bảo vệ mạnh mẽ tính bí mật và toàn vẹn của cả dữ liệu nhạy cảm và các mô hình AI trong suốt quá trình chúng được sử dụng.

Vì vậy hỗ trợ triển khai an toàn các ứng dụng AI trên các hạ tầng chia sẻ (như đám mây công cộng) hoặc từ xa (như tại biên mạng), những môi trường vốn tiềm ẩn nhiều rủi ro bảo mật.

Ngoài ra còn có khả năng triển khai mà không cần bất kỳ thay đổi nào đối với mã ứng dụng CUDA hiện có nên giúp giảm thiểu đáng kể rào cản và chi phí áp dụng công nghệ.

Nguyên tắc hoạt động của NVIDIA Confidential Computing

Nguyên tắc hoạt động

Môi trường TEE trên GPU NVIDIA

Nền tảng công nghệ

Cốt lõi của NVIDIA Confidential Computing là Môi trường Thực thi Tin cậy (TEE – Trusted Execution Environment) được xây dựng trực tiếp trên phần cứng GPU.

TEE có thể hiểu đơn giản là một “không gian an toàn” được cô lập hoàn toàn khỏi các thành phần khác của hệ thống bao gồm hệ điều hành chính (host OS), chương trình ảo hóa (hypervisor) và các ứng dụng bên ngoài.

TEE tạo ra một “khu vực cấm” nơi mã nguồn và dữ liệu nhạy cảm có thể được xử lý mà không lo bị xem trộm hoặc can thiệp từ bên ngoài.

Điều này tương tự như một phòng két an toàn trong ngân hàng, nơi chỉ những người được ủy quyền mới có thể truy cập và thao tác.

Kiến trúc phần cứng

Trên các GPU sử dụng kiến trúc Hopper và Blackwell, TEE được xây dựng trên nền tảng phần cứng đặc biệt vững chắc.

Nền tảng này được “gắn chặt” vào một Gốc Tin cậy Phần cứng (Hardware Root of Trust – RoT) được tích hợp trực tiếp trong chip.

RoT đóng vai trò như điểm khởi đầu cho toàn bộ chuỗi bảo mật, là một thành phần không thể chỉnh sửa và có độ tin cậy cao từ đầu.

Ví dụ: Giống như một chiếc ô tô hiện đại có chip bảo mật cố định trong động cơ để chống trộm xe, RoT là một “chip bảo mật” không thể tháo rời khỏi GPU, đảm bảo chỉ mã nguồn được phép mới có thể chạy trên thiết bị.

Quy trình hoạt động

Khi GPU được khởi động trong chế độ Confidential Computing (gọi tắt là CC-On), một chuỗi các cơ chế bảo vệ phần cứng sẽ được kích hoạt.

Các cơ chế này đảm bảo tính bí mật và toàn vẹn cho mã nguồn và dữ liệu xử lý bên trong TEE.

Khả năng mở rộng TEE

Một điểm nổi bật trong kiến trúc của NVIDIA là mở rộng môi trường TEE từ CPU sang GPU.

Để thực hiện được điều này, CPU máy chủ cần hỗ trợ các công nghệ TEE dựa trên máy ảo như AMD SEV-SNP hoặc Intel TDX.

Khi một Máy ảo Bảo mật (Confidential Virtual Machine – CVM) được tạo trên CPU, NVIDIA Confidential Computing có thể “kéo dài” ranh giới bảo mật của CVM để bao gồm cả GPU được phân công cho máy ảo đó.

Điều này có nghĩa toàn bộ môi trường máy ảo, từ bộ nhớ hệ thống đến bộ nhớ GPU, đều được bảo vệ trong cùng một TEE.

Ví dụ: Hình dung một văn phòng có phòng họp bảo mật (TEE trên CPU), khi cần thêm thiết bị đặc biệt như màn hình chiếu an toàn (GPU), công nghệ này giúp “mở rộng” không gian bảo mật để bao gồm cả thiết bị đó, không cần lắp đặt thêm hệ thống bảo mật riêng.

Lợi ích tương thích

Cách tiếp cận này mang lại lợi thế lớn: các ứng dụng hiện tại (như ứng dụng CUDA) có thể chạy ngay trong môi trường bảo mật mà không cần chỉnh sửa mã nguồn.

Do đó giúp tiết kiệm thời gian và chi phí triển khai đáng kể.

Độ vững chắc của giải pháp

Hệ thống này hoàn toàn dựa vào phần cứng với các thành phần như RoT, tường lửa tích hợp, và mã hóa cho bộ nhớ và giao tiếp.

Cách thức hoạt động này cung cấp độ bảo mật cao hơn nhiều so với các giải pháp chỉ dựa vào phần mềm.

Công nghệ của NVIDIA  không chỉ chống được các mối đe dọa từ phần mềm (như virus, khai thác lỗ hổng hệ thống) mà còn đối phó được với một số hình thức tấn công vật lý cơ bản như đọc trộm dữ liệu từ bộ nhớ.

Kết quả là một nền tảng vững chắc cho toàn bộ hệ thống tính toán bảo mật.

RoT và khởi động an toàn

Gốc Tin cậy (Root of Trust – RoT) đóng vai trò như “nền móng” cho mọi hệ thống bảo mật đáng tin cậy.

Trong NVIDIA Confidential Computing, RoT được tích hợp trực tiếp vào phần cứng GPU.

RoT thường dựa trên một khóa mật mã độc nhất được ghi cố định vào phần cứng trong quá trình sản xuất và không thể thay đổi hay truy cập bởi bất kỳ ai khác.

Ví dụ: RoT giống như “DNA” của GPU – một đặc điểm duy nhất được tạo ra khi sản xuất và không ai có thể thay đổi hay nhìn thấy.

Nó đóng vai trò như bản chính gốc của một tài liệu quan trọng, được cất giữ trong két an toàn.

Quy trình khởi động an toàn

Khi GPU bật nguồn trong chế độ Confidential Computing, quá trình Khởi động An toàn sẽ được kích hoạt.

Đây là một chuỗi kiểm tra nghiêm ngặt gồm nhiều bước, sử dụng RoT làm nền tảng.

Mục đích chính là đảm bảo chỉ có firmware chính hãng, được ký xác nhận bởi NVIDIA và chưa bị chỉnh sửa, mới được tải và chạy trên GPU.

Ví dụ: Giống như một cửa hàng tiện lợi phải kiểm tra từng sản phẩm có mã vạch chính hãng trước khi đưa lên kệ, Secure Boot kiểm tra “chữ ký” của từng phần mềm trước khi cho phép chạy.

Chuỗi kiểm tra và xác minh

Xác thực chữ ký số

  • Mỗi thành phần firmware phải có “chữ ký số” hợp lệ từ NVIDIA.
  • Quá trình này tương tự như việc kiểm tra chữ ký trên séc, chỉ khi chữ ký đúng, thành phần đó mới được tin tưởng.

Đo lường và ghi nhận

  • Hệ thống tạo ra “dấu vết số” (hash) cho mỗi thành phần firmware và lưu trữ chúng một cách an toàn.
  • Những “dấu vết” này sau đó được sử dụng để chứng minh rằng GPU đã khởi động đúng cách.

Chuỗi tin cậy

  • Bắt đầu từ RoT phần cứng (không thể thay đổi)
  • Qua các lớp firmware đã được xác thực
  • Cuối cùng đến môi trường thực thi ứng dụng bên trong TEE

Ví dụ: Giống như đường dây chuyền sản xuất có kiểm định chất lượng ở mỗi công đoạn. Sản phẩm chỉ được chuyển sang công đoạn tiếp theo khi hoàn thành và được xác nhận đạt tiêu chuẩn ở công đoạn hiện tại.

Cơ chế bảo vệ

Bất kỳ sự can thiệp hoặc thay đổi trái phép nào vào firmware trong quá trình khởi động sẽ bị phát hiện ngay lập tức để ngăn chặn tạo ra TEE không đáng tin cậy.

Các cơ chế phần cứng cũng đảm bảo firmware không thể bị chỉnh sửa sau khi đã được tải và xác thực cho đến lần khởi động lại tiếp theo.

Tính năng đặc biệt

Hệ thống này hoạt động như một “bảo vệ tự động” một khi đã xác nhận firmware là hợp lệ, nó sẽ không cho phép bất kỳ thay đổi nào cho đến khi GPU được khởi động lại.

Quy trình chứng thực và SPDM

Quy trình chứng thực và SPDM

Chứng thực đóng vai trò như một “hộ chiếu kỹ thuật số” cho GPU.

Vì vậy giúp người dùng hoặc các dịch vụ khác xác minh một cách độc lập và tin cậy môi trường thực thi GPU đang hoạt động đúng như yêu cầu trước khi gửi dữ liệu hoặc mã lệnh nhạy cảm.

Ví dụ: Giống như khi gửi tiền qua ngân hàng, cần chắc chắn máy ATM là chính hãng và hoạt động bình thường trước khi nhập mã PIN.

Chứng thực hoạt động tương tự khi nó xác nhận GPU là “máy tín nhiệm” trước khi người dùng “gửi dữ liệu” vào đó.

Quy trình chứng thực chi tiết

Xác thực danh tính GPU

Bước đầu tiên là xác minh GPU đang giao tiếp là thiết bị NVIDIA chính hãng có hỗ trợ Confidential Computing.

Quy trình này gồm:

  • Kiểm tra chứng chỉ nhận dạng: Mỗi GPU có một “giấy tờ tùy thân” riêng – chứng chỉ nhận dạng thiết bị được NVIDIA cấp trong quá trình sản xuất dựa trên một khóa riêng duy nhất được tích hợp vào RoT.
  • Kiểm tra tình trạng hợp lệ: Cần xác nhận chứng chỉ này chưa bị thu hồi, thường qua dịch vụ OCSP (Online Certificate Status Protocol) của NVIDIA – tương tự như kiểm tra xem thẻ tín dụng có bị khóa hay không.

Tạo báo cáo chứng thực

Khi được yêu cầu, GPU sẽ tạo ra một báo cáo chứa:

  • Các phép đo trạng thái: Đây là các “dấu vân tay” (hash) kỹ thuật số thể hiện trạng thái của các thành phần quan trọng như phiên bản firmware, cấu hình bảo mật.
  • Chữ ký đảm bảo: Toàn bộ báo cáo được ký bằng khóa riêng của RoT, đảm bảo không ai có thể giả mạo được.

Ví dụ: Giống như một ngân hàng tạo biên bản ủy quyền có dấu mộc và chữ ký đảm bảo tính xác thực, báo cáo chứng thực là “biên bản” kỹ thuật số của GPU.

Xác minh báo cáo

Người dùng hoặc dịch vụ tin cậy nhận báo cáo và thực hiện:

  • Kiểm tra chữ ký: Sử dụng khóa công khai của NVIDIA để xác nhận báo cáo thật chưa bị sửa đổi
  • Đối chiếu thông tin: Kiểm tra các phép đo để đảm bảo GPU đang chạy phiên bản firmware đúng và cấu hình bảo mật phù hợp

NVIDIA cung cấp Dịch vụ Chứng thực Từ xa (NRAS) để thực hiện việc xác minh này một cách an toàn và cập nhật.

Chỉ khi báo cáo được xác nhận hợp lệ, việc xử lý dữ liệu nhạy cảm mới được tiếp tục.

Vai trò của SPDM

SPDM (Security Protocols and Data Models) là bộ giao thức chuẩn hóa được sử dụng để thiết lập kênh liên lạc an toàn giữa trình điều khiển NVIDIA và TEE của GPU.

Cơ chế hoạt động: Trình điều khiển chạy bên trong TEE của CPU sử dụng SPDM để:

  • Tạo kênh truyền mã hóa
  • Yêu cầu và nhận báo cáo chứng thực một cách an toàn

Ví dụ: Giống như một đường ống chuyên dụng chống rò rỉ để vận chuyển chất lỏng nhạy cảm, SPDM tạo “đường ống bảo mật” để chuyển thông tin giữa CPU và GPU.

Tầm quan trọng của chứng thực

Chứng thực là cơ chế nền tảng:

  • Xây dựng lòng tin trong môi trường không đáng tin cậy (như đám mây công cộng)
  • Hỗ trợ kiến trúc bảo mật Zero Trust
  • Là điều kiện cần cho các mô hình hợp tác như Học Tập Liên kết Bảo mật, nơi các bên cần tin tưởng lẫn nhau trước khi chia sẻ thông tin nhạy cảm

Ví dụ: Trong học máy phân tán, các công ty cần đảm bảo môi trường tính toán của đối tác là an toàn trước khi chia sẻ dữ liệu khách hàng để đào tạo mô hình chung.

Cách ly, mã hóa và tường lửa

Mã hóa lưu lượng dữ liệu

Một trong những biện pháp bảo vệ nền tảng là mã hóa toàn bộ dữ liệu khi di chuyển giữa các vùng tin cậy và không tin cậy.

Giao tiếp CPU-GPU qua PCIe Dữ liệu truyền tải giữa TEE của CPU và TEE của GPU thông qua chuẩn kết nối PCIe được mã hóa mạnh bằng thuật toán AES-GCM 256-bit.

Đây là một chuẩn mã hóa hiện đại với năng lực bảo mật rất cao.

Thông tin được truyền giữa các GPU qua kết nối NVLink tốc độ cao cũng được mã hóa cẩn thận để ngăn chặn việc nghe lén hoặc thay đổi dữ liệu.

Kiến trúc Blackwell còn nâng cấp thêm “bảo vệ nội tuyến” trên NVLink, hướng đến hiệu quả mã hóa cao hơn cho giao tiếp GPU-GPU.

Thông số kỹ thuật mã hóa AES-GCM không chỉ bảo vệ tính bí mật mà còn đảm bảo tính toàn vẹn thông qua thẻ xác thực (AuthTag).

Do đó giúp phát hiện bất kỳ thay đổi nào đối với dữ liệu trong quá trình truyền.

Hệ thống cũng áp dụng Vector Khởi tạo (IV) thay đổi cho từng gói tin và xoay khóa tự động để chống các cuộc tấn công phát lại và lỗ hổng mật mã khác.

Cơ chế xử lý bộ nhớ

Bounce Buffers (Hopper)

GPU thế hệ Hopper không thể truy cập trực tiếp vào bộ nhớ hệ thống đã được mã hóa bởi CPU TEE do giới hạn về phần cứng.

Để khắc phục, Hopper sử dụng cơ chế “bounce buffer”:

  • Quy trình chuyển dữ liệu từ CPU sang GPU:
  • CPU TEE giải mã dữ liệu (nếu cần)
  • Mã hóa lại bằng khóa riêng của kênh CPU-GPU
  • Ghi vào vùng bộ nhớ hệ thống không bảo vệ
  • GPU đọc dữ liệu đã mã hóa từ bounce buffer
  • Giải mã vào bộ nhớ cục bộ (HBM) để xử lý

Hạn chế

Mặc dù đảm bảo an toàn, cơ chế này tạo ra nút thắt về băng thông và độ trễ, là nguyên nhân chính gây chi phí hiệu năng cho Confidential Computing trên Hopper.

Ví dụ: Giống như việc vận chuyển hàng hóa cần thiết phải chuyển đổi giữa các loại xe khác nhau, bounce buffer đóng vai trò như “nhà ga trung chuyển” – vừa đảm bảo an toàn nhưng cũng tốn thời gian.

TEE-I/O (Blackwell)

  • Để khắc phục nhược điểm của bounce buffer, kiến trúc Blackwell giới thiệu công nghệ TEE-I/O đột phá.
  • Mặc dù chi tiết kỹ thuật chưa được công bố đầy đủ nhưng mục tiêu chính là tạo ra khả năng tương tác hiệu quả giữa GPU và bộ nhớ được mã hóa của CPU TEE mà không cần các bước trung gian tốn kém.

Lợi ích

  • TEE-I/O dự kiến sẽ giảm hoặc loại bỏ hoàn toàn nút thắt I/O.
  • Vì vậy giúp Blackwell đạt hiệu năng Confidential Computing gần như tương đương với chế độ không mã hóa.

Tường lửa phần cứng

Khi hoạt động ở chế độ CC-On, GPU kích hoạt tường lửa phần cứng tích hợp với các chức năng:

Kiểm soát truy cập:

Cách ly môi trường:

  • Tách biệt các phiên bản GPU ảo (MIG instances) trong môi trường đa người dùng

Ví dụ: Tường lửa phần cứng hoạt động như bảo vệ tòa nhà, kiểm tra danh tính và chặn mọi người không được phép vào các khu vực nhạy cảm.

Bảo vệ chống kênh phụ

Các cuộc tấn công kênh phụ khai thác thông tin rò rỉ gián tiếp từ hoạt động phần cứng để suy ra dữ liệu bí mật.

Các biện pháp bảo vệ bao gồm:

Vô hiệu hóa bộ đếm hiệu năng:

  • Tắt các bộ đếm hiệu năng phần cứng ở chế độ CC-On
  • Ngăn ngừa rò rỉ thông tin qua thời gian xử lý, tiêu thụ điện

Chế độ phát triển đặc biệt:

NVIDIA cung cấp CC-DevTools cho môi trường phát triển

  • Hỗ trợ bật lại bộ đếm hiệu năng để gỡ lỗi
  • Đi kèm cảnh báo về giảm mức độ bảo mật

Nâng cấp công nghệ

Quá trình phát triển từ bounce buffer sang TEE-I/O cho thấy nỗ lực giải quyết sự đánh đổi giữa bảo mật và hiệu năng:

  • Bounce buffer: Giải pháp cần thiết ban đầu nhưng tạo ra điểm nghẽn hiệu năng rõ rệt
  • TEE-I/O: Tiến bộ lớn, tích hợp sâu hơn bảo mật vào pipeline I/O
  • Mục tiêu: Làm cho bảo mật trở nên “miễn phí” về mặt hiệu năng

Nếu TEE-I/O đạt được hiệu năng gần như tương đương chế độ không mã hóa, đây sẽ là bước ngoặt thúc đẩy áp dụng Confidential Computing rộng rãi hơn.

Tích hợp với TEE trên CPU

Tích hợp với TEE trên CPU

Yêu cầu bắt buộc về CPU

NVIDIA Confidential Computing không hoạt động độc lập mà được thiết kế để hoạt động chung với các Môi trường Thực thi Tin cậy (TEE) đã có trên CPU.

Điều kiện CPU cần thiết để triển khai NVIDIA CC trên GPU Hopper hoặc Blackwell là hệ thống máy chủ phải được trang bị CPU hỗ trợ công nghệ TEE dựa trên máy ảo.

Hiện tại, các công nghệ được hỗ trợ chính thức bao gồm:

  • AMD SEV-SNP: Có mặt trên CPU AMD EPYC thế hệ Milan và Genoa
  • Intel TDX: Công nghệ tương đương từ Intel

Ví dụ: Giống như một ô tô hybrid cần cả động cơ xăng và động cơ điện để hoạt động tối ưu, hệ thống NVIDIA Confidential Computing cần sự phối hợp giữa TEE trên CPU và GPU.

Mô hình tích hợp

Trong mô hình này, TEE trên GPU hoạt động như phần mở rộng của TEE trên CPU.

Quy trình hoạt động:

  • Tạo môi trường bảo mật: Một Máy ảo Bảo mật (CVM) được tạo ra và bảo vệ bởi công nghệ SEV-SNP hoặc TDX trên CPU
  • Trình điều khiển đặc biệt: Trình điều khiển NVIDIA được thiết kế để chạy an toàn bên trong CVM này, tức là hoạt động trong TEE của CPU
  • Kết nối bảo mật: Từ bên trong CVM, trình điều khiển sử dụng giao thức SPDM để thiết lập kênh liên lạc được mã hóa và xác thực với TEE trên GPU
  • Tương tác dữ liệu: Kênh an toàn này cho phép CVM gửi lệnh, truyền dữ liệu và nhận kết quả từ GPU một cách bảo mật

Ví dụ: Giống như một ngân hàng sử dụng hệ thống bảo mật nhiều lớp, với khu vực két sắt (TEE CPU) và phòng giao dịch bảo mật riêng (TEE GPU) được kết nối bằng kênh truyền dữ liệu mã hóa.

Quản lý và tương tác bộ nhớ

Phân chia trách nhiệm TEE trên CPU (SEV-SNP/TDX) chịu trách nhiệm chính trong việc mã hóa và bảo vệ bộ nhớ hệ thống được cấp phát cho CVM.

GPU thường không thể trực tiếp truy cập vào vùng nhớ đã được mã hóa của CVM.

Đây là lý do cần các cơ chế tương tác đặc biệt:

  • Bounce buffers (Hopper): Giải pháp tạm thời cho phép GPU đọc/ghi dữ liệu bảo mật
  • TEE-I/O (Blackwell): Công nghệ tiên tiến hơn để truy cập bộ nhớ hiệu quả

Bảo mật bổ sung IOMMU được cấu hình bởi hypervisor để giới hạn nghiêm ngặt phạm vi bộ nhớ mà GPU có thể truy cập, đảm bảo:

  • GPU chỉ tương tác với vùng nhớ được cấp phép của CVM
  • Không có quyền truy cập trái phép vào bộ nhớ của host hoặc VM khác

Ví dụ: Tương tự như thẻ từ trong văn phòng chỉ cho phép vào các phòng cụ thể, IOMMU đóng vai trò “thẻ chip” chỉ cho phép GPU truy cập vùng bộ nhớ đúng.

Phụ thuộc lẫn nhau

Yếu tố then chốt về sự phụ thuộc chặt chẽ vào các công nghệ TEE trên CPU là một đặc điểm quan trọng của kiến trúc NVIDIA CC.

Như vậy có nghĩa hiệu quả và mức độ bảo mật tổng thể phụ thuộc vào:

  • Sự sẵn có của các công nghệ CPU TEE
  • Tính năng và hiệu năng của chúng
  • Độ tin cậy của AMD SEV-SNP và Intel TDX

Bất kỳ hạn chế, lỗ hổng bảo mật hoặc vấn đề hiệu năng nào trong công nghệ TEE của CPU đều có thể ảnh hưởng trực tiếp đến giải pháp Confidential Computing trên GPU.

Sự phát triển và trưởng thành của hệ sinh thái TEE trên cả CPU và GPU là yếu tố quyết định cho sự thành công lâu dài của Confidential Computing.

Khả năng phối hợp giữa hai thành phần này sẽ tạo nên một giải pháp bảo mật toàn diện và hiệu quả.

Tính năng và lợi ích của NVIDIA Confidential Computing

Tính năng và lợi ích

Bảo mật dựa trên phần cứng

Nền tảng vững chắc

Điểm mạnh cốt lõi của NVIDIA Confidential Computing nằm ở nền tảng bảo mật dựa trên phần cứng.

Thay vì chỉ dựa vào các lớp phần mềm, giải pháp này tận dụng sâu sắc các cơ chế bảo vệ được tích hợp trực tiếp vào kiến trúc silicon của GPU Hopper và Blackwell.

Ví dụ: Giống như một két sắt ngân hàng có hệ thống khóa cơ học phức tạp được chế tạo cùng với thân két, không chỉ dựa vào khóa số bên ngoài, bảo mật phần cứng này trở thành một phần không thể tách rời của GPU.

Các thành phần chính

  • Gốc tin cậy phần cứng (RoT) trên chip
  • Là điểm neo bảo mật không thể thay đổi cho toàn bộ hệ thống
  • Được tạo ngay trong quá trình sản xuất chip
  • Đóng vai trò như “dấu ấn DNA” độc nhất của mỗi GPU

Khởi động an toàn (Secure Boot)

  • Đảm bảo tính toàn vẹn của firmware ngay từ khi GPU khởi động
  • Xác minh mọi thành phần phần mềm trước khi cho phép chạy
  • Ngăn chặn firmware giả mạo được tải lên

Mã hóa toàn diện

  • Mã hóa bộ nhớ: Bảo vệ dữ liệu khi lưu trữ tạm trên GPU
  • Mã hóa giao tiếp: Bảo vệ dữ liệu khi di chuyển giữa CPU và GPU hoặc giữa các GPU trong hệ thống đa GPU

Tường lửa phần cứng

  • Cách ly TEE của GPU khỏi các truy cập trái phép
  • Hoạt động ở mức phần cứng, không bị vượt qua bởi phần mềm
  • Kiểm soát nghiêm ngặt mọi tương tác với GPU

Môi trường thực thi tin cậy (TEE) mạnh mẽ

Kết hợp các yếu tố trên tạo ra một TEE với mức độ cách ly và bảo vệ cao.

Môi trường này được thiết kế để đối phó với nhiều loại mối đe dọa:

Tấn công phần mềm:

  • Mã độc, virus
  • Khai thác lỗ hổng hệ điều hành
  • Tấn công qua hypervisor

Tấn công vật lý cơ bản:

  • Đọc trộm bộ nhớ qua bus hệ thống
  • Cắm thiết bị độc hại vào cổng PCIe

Tấn công mật mã cơ bản:

  • Phá vỡ khóa mã hóa đơn giản
  • Tấn công phát lại (replay attacks)

Tấn công hạ cấp phần mềm:

  • Cài đặt phiên bản firmware cũ có lỗ hổng

Lợi ích tổng thể

Giảm thiểu bề mặt tấn công

  • Cô lập chặt chẽ khối lượng công việc nhạy cảm khỏi các thành phần không đáng tin cậy khác của hệ thống, NVIDIA CC giúp giảm thiểu đáng kể bề mặt tấn công tổng thể.

Ví dụ: Giống như việc làm việc trong phòng sạch độc lập thay vì trong môi trường mở, TEE tạo ra một không gian “vô trùng” về mặt bảo mật, nơi dữ liệu nhạy cảm được xử lý an toàn.

Ưu thế chiến lược

Cách tiếp cận phần cứng này mang lại:

  • Độ tin cậy cao hơn so với bảo mật chỉ dựa vào phần mềm
  • Khả năng chống chọi mạnh mẽ hơn với các cuộc tấn công tinh vi
  • Nền tảng vững chắc cho các ứng dụng tính toán bảo mật trong các lĩnh vực quan trọng

Không cần thay đổi mã ứng dụng

Tính năng “Chạy ngay lập tức”

Một trong những lợi ích nổi bật nhất là khả năng triển khai NVIDIA Confidential Computing mà không yêu cầu sửa đổi mã nguồn ứng dụng hiện có.

Các ứng dụng được viết bằng CUDA có thể di chuyển và chạy trực tiếp bên trong môi trường TEE bảo mật mà không cần bất kỳ nỗ lực tái cấu trúc hay viết lại mã nào.

Quy trình đơn giản:

  • Xác định các khối lượng công việc cần bảo vệ
  • Kích hoạt chế độ Confidential Computing cho GPU tương ứng
  • Chạy ứng dụng ngay lập tức

Ví dụ: Giống như việc chuyển văn phòng từ tòa nhà thường sang tòa nhà có hệ thống bảo mật hiện đại – bạn chỉ cần dọn đồ vào mà không phải thay đổi cách làm việc.

Loại bỏ rào cản lớn

  • Tính năng này giúp vượt qua một trong những trở ngại kỹ thuật và chi phí lớn nhất khi áp dụng công nghệ bảo mật mới.

So sánh với giải pháp truyền thống

Các giải pháp cũ:

  • Yêu cầu phân tách ứng dụng thành phần tin cậy và không tin cậy
  • Phải viết lại mã để phù hợp với API đặc biệt.
  • Tốn thời gian và công sức phát triển
  • Không khả thi cho các codebase lớn

NVIDIA Confidential Computing:

  • Chạy trực tiếp mà không cần chỉnh sửa
  • Tận dụng toàn bộ investment phần mềm hiện có
  • Triển khai nhanh chóng

Lợi ích thực tế

Tốc độ triển khai

  • Di chuyển nhanh chóng ứng dụng AI và HPC sang môi trường bảo mật
  • Giảm đáng kể thời gian đưa giải pháp bảo mật vào hoạt động

Tiết kiệm chi phí

  • Không tốn kém để viết lại mã
  • Tận dụng khoản đầu tư hiện có vào phát triển phần mềm
  • Giảm chi phí đào tạo nhân sự

Dễ dàng áp dụng

  • Không cần thay đổi quy trình phát triển
  • Developer giữ được cách làm việc quen thuộc
  • Không cần học hỏi API mới

Ví dụ: Giống như việc nâng cấp ô tô từ động cơ thường sang hybrid, người lái vẫn lái như bình thường nhưng được hưởng lợi từ công nghệ tiên tiến.

Chiến lược phát triển

Đây là một chiến lược quan trọng của NVIDIA để thúc đẩy việc áp dụng Confidential Computing rộng rãi.

Loại bỏ độ phức tạp kỹ thuật, NVIDIA tạo điều kiện cho nhiều tổ chức để sử dụng công nghệ bảo mật tiên tiến này, đặc biệt là các công ty có:

  • Các hệ thống AI/ML quan trọng đang hoạt động
  • Codebase legacy lớn
  • Nhu cầu bảo mật cao nhưng ít thời gian phát triển

Tác động đến thị trường

Khả năng này giúp NVIDIA Confidential Computing trở thành giải pháp hấp dẫn cho việc:

Thay vì là một trở ngại, việc áp dụng bảo mật trở thành một quy trình tự nhiên và không gây gián đoạn.

Khả năng kiểm chứng và tuân thủ

Kiểm chứng và tuân thủ

Cơ chế chứng thực mạnh mẽ

Chứng thực đóng vai trò nền tảng cho sự tin cậy trong NVIDIA Confidential Computing.

Do đó cung cấp bằng chứng mật mã không thể chối cãi về trạng thái và cấu hình của hệ thống.

Chức năng chủ yếu:

  • Xác minh GPU là thiết bị NVIDIA chính hãng
  • Đảm bảo đang chạy đúng phiên bản firmware/microcode
  • Xác nhận cấu hình đúng chế độ Confidential Computing

Ứng dụng thực tế:

  • Chạy khối lượng công việc trên hạ tầng bên thứ ba
  • Hoạt động trong môi trường hợp tác đa bên
  • Triển khai kiến trúc bảo mật Zero Trust

Ví dụ: Giống như việc kiểm tra hộ chiếu khi nhập cảnh, chứng thực đóng vai trò “phù hiệu nhận dạng” điện tử, xác nhận tính xác thực của mọi thành phần.

Đáp ứng yêu cầu tuân thủ

Trong bối cảnh các quy định bảo vệ dữ liệu ngày càng nghiêm ngặt toàn cầu, NVIDIA Confidential Computing trở thành công cụ hữu lực để đáp ứng các yêu cầu pháp lý.

Các quy định quan trọng:

  • GDPR (Châu Âu): Quy định bảo vệ dữ liệu chung
  • HIPAA (Hoa Kỳ): Bảo vệ thông tin y tế
  • Các tiêu chuẩn ngành như PCI-DSS trong tài chính

Lợi thế riêng:

Confidential Computing giải quyết lỗ hổng mà các biện pháp mã hóa truyền thống để lại:

  • Data-at-rest: Đã có mã hóa khi lưu trữ
  • Data-in-transit: Đã có mã hóa khi truyền tải
  • Data-in-use: Chỉ có Confidential Computing mới bảo vệ được dữ liệu khi đang xử lý

Ví dụ: Giống như bảo mật tài liệu không chỉ khi cất trong két mà cả lúc đang đọc và trình bày, công nghệ này đảm bảo dữ liệu luôn được bảo vệ.

Hỗ trợ kiểm tra và chứng minh

Khả năng cung cấp bằng chứng kỹ thuật:

  • Báo cáo chứng thực chi tiết
  • Nhật ký hoạt động an toàn
  • Đáp ứng yêu cầu kiểm tra độc lập

Lợi ích cho tổ chức:

  • Chứng minh sự tuân thủ với cơ quan quản lý
  • Đáp ứng yêu cầu kiểm soát viên
  • Đặc biệt hữu ích cho ngành có quy định chặt chẽ

Giải quyết thách thức chủ quyền dữ liệu

Đây là vấn đề phức tạp khi nhiều quốc gia yêu cầu dữ liệu công dân phải được xử lý trong phạm vi lãnh thổ hoặc dưới sự kiểm soát chặt chẽ.

Giải pháp Confidential Computing:

  • Duy trì quyền kiểm soát dữ liệu ngay cả trên hạ tầng đám mây
  • Tận dụng hiệu quả và quy mô của nhà cung cấp đám mây toàn cầu
  • Đáp ứng yêu cầu pháp lý địa phương

Ví dụ: Một bệnh viện ở Đức có thể xử lý dữ liệu bệnh nhân trên đám mây AWS tại Pháp, vẫn tuân thủ GDPR và quy định địa phương nhờ Confidential Computing đảm bảo dữ liệu không được AWS nhìn thấy.

Tác động và ý nghĩa chiến lược

Mở ra cơ hội mới:

  • Các ngành được quản lý chặt chẽ có thể áp dụng AI/ML
  • Hợp tác quốc tế an toàn hơn
  • Đẩy nhanh quá trình chuyển đổi số

Giá trị kinh doanh:

  • Giảm rủi ro pháp lý
  • Gia tăng sự tin tưởng của khách hàng
  • Tạo lợi thế cạnh tranh trong thị trường toàn cầu

Confidential Computing không chỉ đáp ứng yêu cầu tuân thủ mà còn tạo ra giá trị kinh doanh thực sự bằng cách kích hoạt các trường hợp sử dụng mới mà trước đây không thể thực hiện được do các hạn chế về tuân thủ.

Sở hữu Trí tuệ AI và dữ liệu

Động lực phát triển chính

Một trong những yếu tố thúc đẩy mạnh mẽ sự phát triển của Confidential Computing là nhu cầu bảo vệ tài sản trí tuệ (IP) và dữ liệu có giá trị cao trong lĩnh vực AI.

Bảo vệ mô hình AI

Giá trị của mô hình AI

Các mô hình AI tiên tiến, đặc biệt là các Mô hình Ngôn ngữ Lớn (LLM) hoặc mô hình chuyên biệt cho ngành công nghiệp, thường là:

  • Kết quả của quá trình R&D tốn kém
  • Chứa đựng bí quyết và lợi thế cạnh tranh của tổ chức

Tài sản vô hình có giá trị rất lớn

Nguy cơ khi triển khai

Khi triển khai trên:

  • Hạ tầng khách hàng
  • Các địa điểm biên mạng
  • Đám mây công cộng

Các mô hình có thể:

  • Bị đánh cắp
  • Sao chép trái phép
  • Phân tích ngược (reverse-engineering)

Giải pháp CC NVIDIA Confidential Computing giải quyết bằng cách:

  • Thực thi mô hình bên trong TEE bảo vệ
  • Ngăn chặn truy cập trái phép vào cấu trúc và trọng số
  • Bảo vệ trong cả quá trình suy luận và tinh chỉnh

Lợi ích cho ISV

  • Các Nhà cung cấp Phần mềm Độc lập giờ đây có thể tự tin phân phối sản phẩm AI trên nhiều môi trường khác nhau mà không lo mất IP.

Bảo vệ dữ liệu trong AI

Loại dữ liệu nhạy cảm

Dữ liệu được sử dụng trong AI thường bao gồm:

  • Thông tin cá nhân (PII)
  • Hồ sơ y tế
  • Thông tin tài chính
  • Bí mật thương mại
  • Dữ liệu độc quyền
  • Ứng dụng thực tế

Trong AI tạo sinh (Generative AI):

  • Các prompts của người dùng có thể chứa thông tin nhạy cảm
  • CC giúp mã hóa và bảo vệ toàn bộ quy trình

Ví dụ: Khi một công ty tài chính sử dụng AI để phân tích hồ sơ khách hàng, CC đảm bảo không có nhân viên IT nào có thể nhìn thấy thông tin cá nhân trong quá trình xử lý.

Chống lại mối đe dọa nội bộ

Đặc điểm nổi bật

Ngay cả những người có đặc quyền cao nhất không thể truy cập:

Lợi ích bảo mật

  • Giảm thiểu rủi ro từ tấn công nội bộ (insider attacks)
  • Ngăn chặn sự tò mò không mong muốn
  • Tạo ranh giới bảo mật rõ ràng

Ví dụ: Một kỹ sư AI cấp cao có thể phát triển mô hình, nhưng khi triển khai trên hạ tầng sản xuất, ngay cả anh ta cũng không thể truy cập được dữ liệu thực tế của khách hàng.

Ảnh hưởng đến mô hình kinh doanh

Mở khóa cơ hội mới

Dịch vụ AI toàn diện:

  • ISV phân phối mô hình dưới dạng dịch vụ
  • Triển khai tại cơ sở khách hàng an toàn
  • Hybrid cloud deployment

Dân chủ hóa công nghệ:

  • Các công ty lớn sẵn sàng chia sẻ mô hình mạnh
  • Công ty nhỏ truy cập được AI tiên tiến
  • Thúc đẩy sự đổi mới

Mô hình hợp tác mới:

  • Chia sẻ dữ liệu an toàn giữa các tổ chức
  • Học máy liên kết bảo mật
  • Phát triển AI đa bên
  • Thay đổi tâm lý

Trước đây:

  • Các công ty ngần ngại triển khai mô hình AI trên môi trường không hoàn toàn kiểm soát
  • Hạn chế phát triển do lo lắng mất IP

Hiện tại với CC:

  • Tự tin triển khai AI ở mọi nơi
  • Không cần hy sinh bảo mật để tận dụng hiệu quả đám mây
  • Mở rộng phạm vi cung cấp dịch vụ

Ý nghĩa chiến lược

Confidential Computing không chỉ giải quyết vấn đề bảo mật mà còn trở thành chất xúc tác cho sự phát triển và đổi mới trong ngành AI.

Do đó tạo nên một hệ sinh thái nơi các công ty có thể tự tin chia sẻ và phát triển công nghệ AI tiên tiến.

Triển khai linh hoạt trên nhiều nền tảng

Triển khai linh hoạt

NVIDIA Confidential Computing nổi bật với khả năng triển khai linh hoạt, không bị giới hạn bởi môi trường cụ thể nào.

Công nghệ này tạo ra một nền tảng bảo mật đáng tin cậy cho dữ liệu và ứng dụng AI bất kể chúng được đặt ở đâu.

Đám mây công cộng

Lợi ích chính:

  • Di chuyển workload nhạy cảm lên các nhà cung cấp lớn (Azure, GCP)
  • Tận dụng khả năng mở rộng và dịch vụ phong phú
  • Không cần hy sinh bảo mật để có được hiệu quả đám mây

Ví dụ: Một bệnh viện có thể chạy AI phân tích hình ảnh y tế trên Azure, biết rằng dữ liệu bệnh nhân luôn được bảo vệ ngay cả khỏi chính nhân viên Microsoft.

Đám mây lai và tại chỗ

Khả năng hỗ trợ:

  • Workload chạy trong trung tâm dữ liệu riêng
  • Môi trường kết hợp on-prem và cloud
  • Bảo mật đồng nhất giữa các môi trường

Lý do triển khai đa dạng:

  • Tuân thủ yêu cầu pháp lý
  • Nhu cầu kiểm soát đặc biệt
  • Bảo vệ chống mối đe dọa nội bộ
  • Cô lập giữa các dự án

Ví dụ: Một ngân hàng giữ dữ liệu giao dịch tại chỗ cho việc tuân thủ, nhưng sử dụng đám mây cho phân tích dữ liệu, với cùng mức bảo mật ở cả hai môi trường.

Điện toán biên

Tính quan trọng đặc biệt:

  • Thiết bị đặt ở vị trí không được giám sát chặt chẽ
  • Nguy cơ truy cập vật lý cao
  • Cần bảo vệ dữ liệu cá nhân và mô hình AI

Khả năng bảo vệ:

  • Dữ liệu cá nhân tại biên
  • Mô hình suy luận AI
  • Thuật toán độc quyền

Ví dụ: Robot trong nhà máy có thể xử lý dữ liệu sản xuất nhạy cảm với AI, dù đặt ở khu vực có nhiều người ra vào.

Ưu điểm của triển khai linh hoạt

Nhất quán trên toàn hạ tầng

  • Áp dụng Confidential Computing đồng đều
  • Từ trung tâm dữ liệu đến đám mây và biên
  • Đồng nhất quy trình bảo mật

Tối ưu hóa theo nhu cầu

  • Lựa chọn môi trường phù hợp cho từng workload
  • Cân bằng giữa hiệu năng, chi phí và bảo mật
  • Thích ứng với yêu cầu đặc thù ngành

Chiến lược lai hóa hiệu quả

  • Tận dụng điểm mạnh của mỗi môi trường
  • Giảm phụ thuộc vào một nhà cung cấp duy nhất
  • Đáp ứng yêu cầu tuân thủ đa dạng

Lợi ích tổng thể

Các tổ chức có thể xây dựng kiến trúc AI bảo mật hiện đại, tận dụng tối đa tiềm năng của từng môi trường mà không lo ngại về việc mất kiểm soát dữ liệu hay IP.

Ưu điểm và hạn chế của NVIDIA Confidential Computing

Ưu điểm và hạn chế

Ưu điểm

Bảo mật Data-in-Use mạnh mẽ

NVIDIA Confidential Computing cung cấp lớp bảo vệ dựa trên phần cứng cho dữ liệu và mã lệnh khi đang được xử lý trên GPU.

Do đó giải quyết một lỗ hổng bảo mật quan trọng.

Điểm đặc biệt:

  • Bảo vệ dữ liệu không chỉ khi lưu trữ hay truyền tải
  • Đảm bảo an toàn ngay trong quá trình tính toán
  • Sử dụng phần cứng thay vì chỉ phần mềm

Ví dụ: Như một chiếc két sắt thông minh không chỉ bảo vệ khi khóa mà cả khi đang mở để sử dụng.

Hiệu năng vượt trội

Đặc biệt với kiến trúc Blackwell và công nghệ TEE-I/O, NVIDIA CC cung cấp hiệu năng gần như tương đương với chế độ không mã hóa.

Đột phá công nghệ:

  • Loại bỏ gần hết chi phí hiệu năng khi mã hóa
  • Khắc phục hạn chế của hệ thống Hopper trước đây
  • Đạt được “bảo mật miễn phí” về mặt hiệu năng
  • Ý nghĩa thực tế: Không cần lựa chọn giữa bảo mật và tốc độ và có thể đạt được cả hai.

Triển khai đơn giản

Hỗ trợ di chuyển ứng dụng CUDA hiện có vào môi trường bảo mật mà không cần chỉnh sửa mã nguồn.

Lợi ích kinh tế:

  • Giảm đáng kể chi phí phát triển
  • Rút ngắn thời gian triển khai
  • Tận dụng khoản đầu tư hiện có

Ví dụ: Giống như nâng cấp ô tô từ thường sang hạng sang mà không cần đào tạo lái xe mới.

Đa dạng ứng dụng quan trọng

Đáp ứng nhu cầu bảo mật cấp thiết cho nhiều trường hợp sử dụng:

Các lĩnh vực chính:

  • AI/Machine Learning
  • Bảo vệ sở hữu trí tuệ
  • Học Tập Liên kết Bảo mật
  • Tuân thủ quy định nghiêm ngặt

Ứng dụng thực tế:

  • Phân tích dữ liệu y tế
  • Giao dịch tài chính bảo mật
  • Phát triển AI độc quyền
  • Hợp tác dữ liệu đa tổ chức

Hệ sinh thái mạnh mẽ

Đối tác chính:

  • Nhà cung cấp đám mây lớn (AWS, Azure, GCP)
  • Đối tác phần cứng OEM
  • Công cụ phần mềm từ NVIDIA
  • Giải pháp từ các đối tác thứ ba

Tác động tích cực:

  • Sự sẵn có rộng rãi
  • Tính tương thích tốt
  • Hỗ trợ toàn diện
  • Phát triển liên tục
  • Ý nghĩa chiến lược: Không phải là công nghệ cô lập mà là một hệ sinh thái hoàn chỉnh đang ngày càng phát triển.

Giá trị tổng thể

NVIDIA Confidential Computing mang đến sự kết hợp độc đáo giữa bảo mật mạnh mẽ, hiệu năng cao và tính dễ triển khai.

Vì thế tạo nên một giải pháp toàn diện cho các nhu cầu tính toán bảo mật hiện đại.

Đây không chỉ là một tính năng mà là một bước tiến quan trọng trong việc hiện thực hóa tầm nhìn về tính toán bảo mật đáng tin cậy cho các ứng dụng quan trọng nhất.

Hạn chế

Chi phí hiệu năng đáng kể

Mặc dù Blackwell có cải thiện, kiến trúc Hopper hiện tại vẫn gặp vấn đề overhead hiệu năng đáng kể.

Nguyên nhân chính:

  • Hạn chế khi trao đổi dữ liệu giữa CPU và GPU
  • Đặc biệt ảnh hưởng đến các workload I/O-bound
  • Cần cơ chế bounce buffer trung gian tốn thời gian

Đề xuất thực tế: Các tổ chức cần thực hiện benchmark kỹ lưỡng cho workload cụ thể trên Hopper trước khi triển khai rộng rãi.

Cài đặt và quản lý phức tạp

  • Thiết lập môi trường CC tại chỗ yêu cầu cấu hình phức tạp ở nhiều lớp.

Các thành phần cần cấu hình:

  • BIOS của hệ thống
  • Hệ điều hành
  • Hypervisor
  • Kubernetes
  • Ứng dụng

Thách thức quản lý:

  • Cập nhật phần mềm liên tục
  • Quản lý chứng chỉ
  • Quản lý khóa mã hóa
  • Yêu cầu tổ chức: Cần sự phối hợp giữa nhiều vai trò quản trị viên khác nhau, từ admin hệ thống đến admin bảo mật.

Yêu cầu phần cứng cao cấp

Công nghệ hiện chỉ hoạt động trên phần cứng mới nhất và đắt tiền.

Yêu cầu GPU:

  • GPU Hopper hoặc Blackwell mới nhất
  • Không tương thích với GPU thế hệ cũ

Yêu cầu CPU:

  • CPU máy chủ hỗ trợ SEV-SNP (AMD)
  • CPU hỗ trợ TDX (Intel)
  • Đòi hỏi thế hệ CPU tương đối mới
  • Tác động tài chính: Chi phí đầu tư ban đầu cao có thể là rào cản cho nhiều tổ chức.

Hạn chế tính năng

Một số chức năng phổ biến gặp giới hạn trong chế độ CC.

API CUDA:

Tính năng ảo hóa:

  • Hạn chế hỗ trợ vGPU
  • Một số cấu hình MIG bị giới hạn
  • Gỡ lỗi: Khả năng phân tích hiệu năng bị hạn chế do phải tắt các bộ đếm hiệu năng phần cứng.

Mô hình tin cậy phức tạp

Mặc dù giảm sự phụ thuộc vào OS/hypervisor, người dùng vẫn phải tin tưởng nhiều thành phần khác.

Các thành phần cần tin cậy:

  • Phần cứng NVIDIA
  • Firmware độc quyền
  • Các thành phần trong TCB
  • Thách thức xác minh: Việc độc lập xác minh tính đúng đắn của phần cứng là khó khăn.

Mối đe dọa bảo mật còn tồn tại

Confidential Computing không phải là giải pháp hoàn hảo chống mọi cuộc tấn công.

Rủi ro tiềm ẩn:

  • Các cuộc tấn công kênh phụ tinh vi
  • Phương pháp tấn công vật lý nâng cao
  • Lỗ hổng mới trong firmware/microcode
  • Yêu cầu bảo mật: Cần cập nhật thường xuyên và theo dõi các lỗ hổng mới được phát hiện.

Có thể bạn quan tâm

Trụ sở chính công ty Comlink

Liên hệ

Comlink_Adress_Logo

Địa chỉ

Tầng 3 Toà nhà VNCC 243A Đê La Thành Str Q. Đống Đa-TP. Hà Nội
Comlink_Workingtime_Logo

Giờ làm việc

Thứ Hai đến Thứ Sáu Từ 8:00 đến 17:30 Hỗ trợ trực tuyến: 24/7
Comlink_Email_Logo

E-mail

info@comlink.com.vn
Comlink_Phone_Logo

Phone

+84 98 58 58 247

Tư vấn

    Hãy liên hệ tại đây
    Zalo Messenger Telegram Gửi Email Gọi điện Gửi SMS Trụ sở Công ty Yêu cầu gọi cho Quý khách