Model Ensembles và Pipeline: tối ưu suy luận với AI

Triton là một nền tảng hỗ trợ model ensembles và pipelines, có thể thực hiện các phần khác nhau của ensemble trên CPU hoặc GPU và cho phép sử dụng nhiều framework khác nhau trong ensemble.

Trong nhiều ứng dụng trích xuất thông tin dựa trên máy học ứng dụng (ML), inference không giới hạn ở việc chạy một forward pass trên một mô hình ML duy nhất.

Thay vào đó, chúng ta thường cần thực hiện một pipeline gồm nhiều mô hình ML.

Ví dụ, một pipeline AI trò chuyện có thể bao gồm ba module: một module nhận dạng giọng nói tự động (ASR) để chuyển đổi sóng âm thanh đầu vào thành văn bản, một module ngôn ngữ lớn (LLM) để hiểu đầu vào và cung cấp phản hồi phù hợp, và một module text-to-speech (TTS) để tạo ra giọng nói từ đầu ra của LLM.

Số lượng và quy mô dữ liệu tăng nhanh

Xem xét một ứng dụng chuyển từ văn bản thành hình ảnh trong đó pipeline bao gồm một LLM và một mô hình diffusion, được sử dụng để mã hóa văn bản đầu vào và tổng hợp hình ảnh từ văn bản đã được mã hóa.

Ngoài ra, nhiều ứng dụng yêu cầu các bước tiền xử lý trên dữ liệu đầu vào trước khi đưa vào các mô hình ML, hoặc các bước sau xử lý trên đầu ra của các mô hình này.

Ví dụ, ảnh đầu vào có thể cần được thay đổi kích thước, cắt tỉa và giải mã trước khi đưa vào các mô hình thị giác máy tính, hoặc đầu vào văn bản cần được tách thành các token trước khi đưa vào LLM.

Trong những năm gần đây, số lượng tham số trong các mô hình ML đã tăng vọt, và chúng ngày càng được giao nhiệm vụ phục vụ người dùng với quy mô lớn; do đó, tối ưu hóa pipeline inference đã trở nên quan trọng hơn bao giờ hết.

Các công cụ như NVIDIA TensorRT và FasterTransformer tối ưu hóa từng mô hình deep learning riêng rẽ để giảm thời gian chờ và tăng hiệu suất khi thực hiện inference trên GPU.

Yêu cầu về tăng tốc xử lý dữ liệu

Tuy nhiên, mục tiêu chung của chúng ta không phải là tăng tốc inference trên từng mô hình ML riêng rẽ, mà là tăng tốc toàn bộ pipeline inference.

Ví dụ, khi phục vụ các mô hình trên GPU, việc tiền xử lý và sau xử lý trên CPU làm giảm hiệu suất của toàn bộ pipeline ngay cả khi bước thực thi mô hình nhanh chóng.

Giải pháp hiệu quả nhất cho một pipeline inference là có các bước tiền xử lý, thực thi mô hình và sau xử lý chạy trên GPU.

Hiệu suất của pipeline inference end-to-end trên GPU này đến từ hai yếu tố quan trọng sau:

Không cần sao chép dữ liệu qua lại giữa CPU (host) và GPU (device) giữa các bước của pipeline.
Sức mạnh tính toán của GPU được sử dụng cho toàn bộ pipeline inference.

Giải pháp thực hiện

Nvidia Triton Inference Server là phần mềm phục vụ inference mã nguồn mở để triển khai và chạy các mô hình với quy mô lớn trên cả CPU và GPU.

Trong số rất nhiều tính năng, NVIDIA Triton hỗ trợ ensemble models, cho phép bạn xác định pipeline inference dưới dạng ensemble của các mô hình trong dạng Đồ Thị Định Hướng Vô Hướng (DAG).

Nvidia Triton sẽ xử lý việc thực thi toàn bộ pipeline. Ensemble model xác định cách tensor đầu ra của một mô hình được sử dụng làm input cho mô hình khác.

Sử dụng ensemble model của NVIDIA Triton, bạn có thể chạy toàn bộ pipeline inference trên GPU hoặc CPU hoặc kết hợp cả hai.

Điều này rất hữu ích khi có các bước tiền xử lý và sau xử lý hoặc khi có nhiều mô hình ML trong pipeline mà đầu ra của một model được đưa vào model khác.

Đối với các use case trong đó pipeline bao gồm vòng lặp, điều kiện hoặc logic tùy chỉnh khác, NVIDIA Triton cung cấp hỗ trợ Business Logic Scripting (BLS).

Tuân thủ quy trình

Giao tiếp giữa các model trong Ensemble

Model Ensembles trong AI là tập hợp các model ML hoạt động cùng nhau để thực hiện các nhiệm vụ phức tạp.

Mỗi model trong ensemble có thể nhận đầu vào từ model khác và gửi kết quả đầu ra cho model tiếp theo trong quá trình inference.

Điều này cho phép các model hoạt động liên kết với nhau để tạo thành một quá trình logic tổng hợp thông tin từ nhiều nguồn.

Ví dụ: Trong ứng dụng AI tự lái xe, ensemble có thể bao gồm các model như nhận diện vật cản, phân loại biển báo giao thông và dự đoán hành vi của người lái xe.

Các model này có thể giao tiếp với nhau để thông qua thông tin quan trọng và phối hợp để ra quyết định an toàn cho việc lái xe tự động.

Tiền xử lý và sau xử lý

Trong pipeline AI, việc tiền xử lý và sau xử lý là các bước quan trọng để chuẩn bị dữ liệu đầu vào cho việc inference và xử lý kết quả sau khi inference hoàn thành.

Các bước này có thể bao gồm chuẩn hoá dữ liệu, mã hóa/giải mã, tokenization hay phân tích cú pháp.

Ví dụ: Trong ứng dụng AI xử lý ảnh y tế, tiền xử lý có thể bao gồm việc chuẩn hoá kích thước ảnh, loại bỏ nhiễu hay áp dụng các kỹ thuật tiền xử lý khác để làm rõ thông tin y tế từ ảnh đầu vào.

Sau khi inference hoàn thành, các bước sau xử lý có thể liên quan đến việc hiển thị kết quả cho người dùng hoặc xuất kết quả ra file.

Loops, Conditionals và Custom Logic

Trong nhiều trường hợp, pipeline AI có thể yêu cầu sử dụng vòng lặp (loops), điều kiện (conditionals) hay logic tùy chỉnh để xử lý thông tin.

Điều này cho phép pipeline linh hoạt và phù hợp với các yêu cầu cụ thể của ứng dụng.

Ví dụ: Trong ứng dụng AI xử lý ngôn ngữ tự nhiên (NLP), pipeline có thể sử dụng vòng lặp để sinh ra các từ tiếp theo trong văn bản tự sinh (text generation).

Điều này cho phép ứng dụng tạo ra câu chuyện hoặc văn bản mới từ một câu ban đầu.

Tối ưu hiệu suất toàn bộ pipeline

Mục tiêu cuối cùng của việc sử dụng Model Ensembles và Pipeline trong AI là tối ưu hiệu suất toàn bộ quá trình inference.

Điều này có ý nghĩa là không chỉ tối ưu hoá từng model riêng lẻ, mà còn tối ưu hoá toàn bộ quá trình inference từ tiền xử lý cho đến sau xử lý.

Ví dụ: Sử dụng Triton Inference Server của NVIDIA cho ensemble models, bạn có thể chạy toàn bộ pipeline inference trên GPU.

Việc này để tận dụng sức mạnh tính toán của GPU và tránh việc sao chép dữ liệu giữa CPU và GPU.

Sử dụng với Nvidia Triton Inference Server

Tối ưu hóa suy luận trong ứng dụng giao tiếp tự động

Một ứng dụng giao tiếp tự động thường gồm ba module: automatic speech recognition (ASR), large language model (LLM), và text-to-speech (TTS).

Với Model Ensembles, chúng ta có thể kết hợp ba module này lại với nhau để thực hiện quá trình giao tiếp tự động.

Triton Inference Server giúp thực thi toàn bộ quá trình suy luận này, từ việc chuyển đổi âm thanh thành văn bản, hiểu và phản hồi từ ngôn ngữ tự nhiên, cho đến việc tạo ra giọng nói từ kết quả của LLM.

Ứng dụng chuyển đổi từ văn bản thành hình ảnh

Trong ứng dụng chuyển đổi từ văn bản thành hình ảnh, chúng ta có thể sử dụng Model Ensembles để kết hợp LLM và diffusion model.

LLM được sử dụng để mã hóa văn bản đầu vào, sau đó diffusion model được sử dụng để tổng hợp một hình ảnh từ văn bản đã được mã hóa.

Triton Inference Server giúp thực thi quá trình suy luận này, từ việc mã hóa văn bản cho đến việc tạo ra hình ảnh từ thông tin đã được mã hóa.

Xử lý tiền xử lý và sau xử lý

Không chỉ thực hiện quá trình suy luận, Model Ensembles còn cho phép xử lý tiền xử lý và sau xử lý trên dữ liệu đầu vào và đầu ra của các mô hình ML.

Ví dụ, trong ứng dụng xử lý ảnh, các ảnh đầu vào có thể cần được thay đổi kích thước, cắt ghép và giải mã trước khi được đưa vào các mô hình computer vision.

Các chuỗi văn bản cần được tách thành các từ (tokenized) trước khi được đưa vào LLM. Với Model Ensembles và Triton Inference Server, chúng ta có thể thực thi toàn bộ quá trình này trên GPU hoặc CPU một cách hiệu quả.

Tối ưu toàn bộ quá trình suy luận

Đối với các mô hình ML có số lượng tham số ngày càng tăng, việc tối ưu hóa toàn bộ quá trình suy luận đã trở nên quan trọng hơn bao giờ hết.

Công cụ như Nvidia TensorRT và FasterTransformer đã tối ưu hoá các mô hình ML riêng lẻ để giảm độ trễ và tăng khả năng xử lý khi thực hiện suy luận trên GPU.

Tuy nhiên, mục tiêu chính không phải là tăng tốc suy luận trên từng mô hình ML riêng lẻ, mà là tăng tốc toàn bộ quá trình suy luận.

Với Model Ensembles và Triton Inference Server, chúng ta có thể tận dụng sức mạnh tính toán của GPU cho toàn bộ quá trình suy luận, từ xử lý tiền xử lý đến model execution và sau xử lý.

Tối ưu quá trình suy luận với GPU

Giảm thiểu sao chép dữ liệu giữa CPU và GPU:

Việc sao chép dữ liệu giữa CPU và GPU là một yếu tố chính làm giảm hiệu suất của pipeline suy luận.

Bằng cách thực hiện toàn bộ quá trình trên GPU, ta có thể giảm thiểu hoặc loại bỏ hoàn toàn việc sao chép này.

Tận dụng sức mạnh tính toán của GPU

GPU là thiết bị có khả năng tính toán song song cao.

Khi sử dụng GPU cho toàn bộ quá trình suy luận, ta có thể tận dụng sức mạnh tính toán này để gia tăng hiệu suất.

Tối ưu batch size

Kích thước batch được sử dụng trong quá trình suy luận có thể ảnh hưởng đáng kể đến hiệu suất của GPU.

Tối ưu batch size phù hợp có thể giúp tăng thông lượng và giảm thời gian phản hồi.

Sử dụng các công cụ tối ưu

Nvidia TensorRT và FasterTransformer là những công cụ được thiết kế đặc biệt để tối ưu quá trình suy luận trên GPU.

Sử dụng các công cụ này có thể giúp gia tăng hiệu suất và giảm thời gian phản hồi.

Phạm vi ứng dụng

Nhận diện giọng nói (Automatic Speech Recognition – ASR)

Nhận diện giọng nói tự động là một ứng dụng quan trọng trong AI và có nhiều ứng dụng thực tế, từ hệ thống ghi âm đến hệ thống hỗ trợ giao tiếp giọng nói.

Một pipeline nhận diện giọng nói thông thường bao gồm ba Module chính: Module Nhận diện giọng nói tự động (ASR), Module Xử lý ngôn ngữ tự nhiên (NLP) và Module Tổng hợp giọng nói (TTS).

Module ASR có nhiệm vụ chuyển đổi tín hiệu âm thanh đầu vào thành văn bản.

Nó sẽ dự đoán các từ và cụm từ từ tín hiệu âm thanh và đưa ra đầu ra là một chuỗi văn bản.

Module NLP sẽ nhận dạng và hiểu các từ và cụm từ trong chuỗi văn bản được trích xuất từ Module ASR.

Nó có thể xử lý các câu hỏi, yêu cầu hoặc lệnh từ người sử dụng và phản hồi theo cách thích hợp.

Module TTS sẽ nhận chuỗi văn bản từ Module NLP và tổng hợp thành giọng nói.

Nó sẽ tạo ra một tệp âm thanh hoặc phát ra trực tiếp âm thanh cho người sử dụng.

Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP)

Xử lý ngôn ngữ tự nhiên là một lĩnh vực quan trọng trong AI và có nhiều ứng dụng phổ biến, từ hệ thống trò chuyện tự động đến công cụ dịch thuật.

Một pipeline xử lý ngôn ngữ tự nhiên thông thường bao gồm hai Module chính: Module Xử lý ngôn ngữ tự nhiên (NLP) và Module Tổng hợp giọng nói (TTS).

Module NLP có nhiệm vụ phân tích, hiểu và xử lý văn bản.

Đầu vào của nó có thể là câu hoặc đoạn văn bản và đầu ra là kết quả của quá trình phân tích, như xác định ý nghĩa, phân loại các entites, phân tích cú pháp, và nhiều hơn nữa.

Module TTS nhận kết quả từ Module NLP và tổng hợp thành giọng nói.

Đầu ra của nó có thể là một tệp âm thanh hoặc âm thanh được phát ra trực tiếp.

Thị giác máy tính (Computer Vision)

Thị giác máy tính là một lĩnh vực quan trọng trong AI và có ứng dụng rộng rãi trong nhận dạng đối tượng, phân loại, nhận diện khuôn mặt và nhiều ứng dụng khác.

Một pipeline thị giác máy tính thông thường bao gồm hai Module chính: Module Tiền xử lý hình ảnh và Module Mạng nơ-ron tích chập (Convolutional Neural Network – CNN).

Module Tiền xử lý hình ảnh có nhiệm vụ chuẩn bị hình ảnh đầu vào cho Module CNN.

Các bước tiền xử lý có thể bao gồm điều chỉnh kích thước, cắt, giải mã và chuẩn hóa hình ảnh.

Module CNN được sử dụng để nhận dạng và phân loại các đối tượng trong hình ảnh.

Các Module này được huấn luyện trước trên các tập dữ liệu lớn để phát hiện các đặc điểm đặc trưng trong hình ảnh và xác định loại đối tượng.

Xử lý ngôn ngữ tự nhiên đa ngôn ngữ (Multilingual Natural Language Processing)

Xử lý ngôn ngữ tự nhiên đa ngôn ngữ là một lĩnh vực mới trong AI và có vai trò quan trọng trong việc xử lý văn bản trong nhiều ngôn ngữ khác nhau.

Một pipeline xử lý ngôn ngữ tự nhiên đa ngôn ngữ thông thường cũng bao gồm hai Module chính: Module Xử lý ngôn ngữ tự nhiên (NLP) và Module Dịch thuật (Translation).

Module NLP có vai trò giống như đã được mô tả trong phần Xử lý ngôn ngữ tự nhiên.

Nó có nhiệm vụ phân tích, hiểu và xử lý văn bản trong các ngôn ngữ khác nhau.

Module Dịch thuật sẽ nhận kết quả từ Module NLP và chuyển đổi văn bản sang các ngôn ngữ khác nhau.

Đầu ra của Module này sẽ là kết quả của quá trình dịch thuật.

Tự động lái xe (Autonomous Driving)

Tự động lái xe là một lĩnh vực hot trong AI và có tiềm năng để thay đổi công nghệ giao thông trong tương lai gần.

Một pipeline tự động lái xe thông thường bao gồm các Module như: Phân loại hình ảnh, Phân tích video, Dự báo hàng loạt (Batch Prediction) và Kiểm soát lái.

Module Phân loại hình ảnh được sử dụng để xác định các loại đối tượng trong hình ảnh của camera xe hơi như ôtô, con người, xe máy, biển báo giao thông…

Module Phân tích video được sử dụng để theo dõi các đối tượng di chuyển trong video.

Các thông tin này có thể được sử dụng để dự đoán hành vi của các đối tượng và tính toán các biến điều khiển.

Module Dự báo hàng loạt được sử dụng để dự đoán tương lai của các biến điều khiển dựa trên quá khứ và hiện tại.

Module Kiểm soát lái được sử dụng để điều chỉnh các biến điều khiển của xe để duy trì an toàn và tuân thủ luật giao thông.

Dự báo thị trường tài chính (Financial Market Prediction)

Dự báo thị trường tài chính là một ứng dụng quan trọng của AI trong lĩnh vực tài chính.

Một pipeline dự báo thị trường tài chính thông thường bao gồm các Module như: Xử lý dữ liệu, Khai thác tính năng (Feature Extraction), Huấn luyện mô hình (Model Training) và Dự báo (Prediction).

Module Xử lý dữ liệu có nhiệm vụ chuẩn bị dữ liệu cho quá trình huấn luyện và dự báo.

Các bước tiền xử lý có thể bao gồm chuẩn hóa dữ liệu, xóa dữ liệu thiếu hoặc không chính xác.

Module Khai thác tính năng được sử dụng để sử dụng các thông tin quan trọng từ dữ liệu đã được tiền xử lý.

Đây có thể là các chỉ số kỹ thuật, thông tin về công ty hoặc các yếu tố kinh tế xã hội khác.

Module Huấn luyện mô hình sẽ sử dụng các thuật toán máy học để huấn luyện một mô hình dự báo từ dữ liệu đã được khai thác tính năng.

Quá trình này sẽ xác định các quy luật hoặc xu hướng trong dữ liệu và áp dụng chúng vào việc dự báo.

Module Dự báo sẽ sử dụng mô hình đã được huấn luyện để dự đoán giá cổ phiếu, xu hướng thị trường hoặc các biến cố khác trong tương lai.

Có thể bạn quan tâm

Nvidia Clara for Genomics gồm các thuật toán gọi biến thể

31
Dec

Nvidia Clara for Medical Imaging: Ứng dụng AI cho ảnh y tế

30
Dec

Nvidia Clara for Medical Devices: AI cho thiết bị y tế

30
Dec

Nvidia Clara for Biopharma tăng tốc phát triển thuốc mới

22
Dec

Thư viện Rapids tăng tốc khoa học dữ liệu

22
Dec

Giải pháp Nvidia Parabricks phân tích gen trên nền tảng GPU

21
Dec

Giải pháp Federated Learning nâng cao bảo mật huấn luyện AI

21
Dec

Nvidia Flare: đa ngành và mở rộng cho học máy phân tán

21
Dec

Nvidia Triton Model Analyzer: Phân tích và tối ưu mô hình

21
Dec

Tác giả

Nguyễn Xuân Hoàng

Chuyên gia kỹ thuật & Marketing

Chuyên gia kỹ thuật và marketing của công ty Comlink. Tốt nghiệp Đại học Bách Khoa Hà Nội chuyên ngành điện tử viễn thông. Đã có 22 năm kinh nghiệm trong cung cấp các giải pháp công nghệ cho ngành giáo dục và y tế, viễn thông và các dự án phần mềm doanh nghiệp.

Xem chi tiết

Địa chỉ trụ sở mới công ty Comlink từ tháng 04/2026

Liên hệ

Địa chỉ

Tầng 6 184 Phương Liệt
Phường Phương Liệt
Thành phố. Hà Nội

Giờ làm việc

Thứ Hai đến Thứ Sáu
Từ 8:00 đến 17:30
Hỗ trợ trực tuyến: 24/7

E-mail

info@comlink.com.vn

Phone

+84 98 58 58 247

Model Ensembles và Pipeline là gì

Giới thiệu chung

Quá trinh phát triển

Số lượng và quy mô dữ liệu tăng nhanh

Yêu cầu về tăng tốc xử lý dữ liệu

Giải pháp thực hiện

Tuân thủ quy trình

Giao tiếp giữa các model trong Ensemble

Tiền xử lý và sau xử lý

Loops, Conditionals và Custom Logic

Tối ưu hiệu suất toàn bộ pipeline

Sử dụng với Nvidia Triton Inference Server

Tối ưu hóa suy luận trong ứng dụng giao tiếp tự động

Ứng dụng chuyển đổi từ văn bản thành hình ảnh

Xử lý tiền xử lý và sau xử lý

Tối ưu toàn bộ quá trình suy luận

Tối ưu quá trình suy luận với GPU

Giảm thiểu sao chép dữ liệu giữa CPU và GPU:

Tận dụng sức mạnh tính toán của GPU

Tối ưu batch size

Sử dụng các công cụ tối ưu

Phạm vi ứng dụng

Nhận diện giọng nói (Automatic Speech Recognition – ASR)

Xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP)

Thị giác máy tính (Computer Vision)

Xử lý ngôn ngữ tự nhiên đa ngôn ngữ (Multilingual Natural Language Processing)

Tự động lái xe (Autonomous Driving)

Dự báo thị trường tài chính (Financial Market Prediction)

Có thể bạn quan tâm

Nguyễn Xuân Hoàng

Liên hệ

Địa chỉ

Giờ làm việc

E-mail

Phone

Tư vấn

Hãy để lại số điện thoại của Quý khách