Xu hướng phân tích văn bản bằng GraphRAG
Trong kỷ nguyên bùng nổ thông tin số, phân tích văn bản bằng GraphRAG đang nổi lên như một giải pháp đột phá cho các tổ chức đối mặt với khối lượng dữ liệu khổng lồ.
Công nghệ này kết hợp giữa đồ thị tri thức và Retrieval Augmented Generation – đang định hình lại cách chúng ta khai thác giá trị từ tài liệu phi cấu trúc.
Theo báo cáo của Gartner, đến năm 2025, hơn 75% doanh nghiệp sẽ chuyển từ phương pháp vector search đơn thuần sang các mô hình tích hợp đa chiều như GraphRAG.
Xu hướng phân tích văn bản bằng GraphRAG đang phát triển nhanh chóng trong nhiều lĩnh vực từ y tế, tài chính đến pháp lý.
Không chỉ đơn thuần cải thiện độ chính xác trong truy xuất thông tin, công nghệ này còn giúp hiểu sâu sắc mối quan hệ giữa các thực thể và khái niệm.
Các tổ chức tiên phong đã ghi nhận cải thiện 40-60% trong khả năng trả lời câu hỏi phức tạp đòi hỏi tổng hợp thông tin từ nhiều nguồn, đặc biệt khi làm việc với dữ liệu riêng tư mà các mô hình ngôn ngữ lớn chưa được tiếp cận trong quá trình huấn luyện.
Khi ranh giới giữa AI và phân tích dữ liệu truyền thống ngày càng mờ nhạt, GraphRAG đang trở thành công cụ thiết yếu cho những ai muốn vượt qua giới hạn của các phương pháp tìm kiếm vector đơn thuần để hướng tới hiểu biết sâu sắc và toàn diện hơn về kho tàng thông tin văn bản của họ.
Biểu diễn dữ liệu băn bản bằng đồ thị
Vai trò của đồ thị tri thức
Biểu diễn cấu trúc qua nút và cạnh
Cốt lõi của phương pháp GraphRAG là quá trình chuyển đổi văn bản phi cấu trúc thành dạng dữ liệu có cấu trúc được gọi là đồ thị tri thức.
Đồ thị này bao gồm các nút đại diện cho các thực thể như con người, địa điểm, khái niệm, hoặc sự kiện và các cạnh thể hiện mối quan hệ giữa những thực thể.
Khi tổ chức dữ liệu theo cách này, GraphRAG vượt ra ngoài việc phân tích các đoạn văn bản thô và thay vào đó tạo ra một bản đồ thông tin liên kết phản ánh cấu trúc ngữ nghĩa cơ bản của nội dung.
Biểu diễn có cấu trúc giúp hiểu sâu sắc hơn về cách các mảnh thông tin khác nhau liên quan đến nhau trong nhiều tài liệu.
Nó trao cho GraphRAG khả năng nhận biết các mẫu và kết nối mà sẽ rất khó phát hiện thông qua việc đối chiếu từ khóa đơn giản hoặc tìm kiếm tương đồng vector.
Các nút và cạnh mã hóa kiến thức một cách hiệu quả theo cách mà máy tính có thể suy luận.
Vì vậy tạo điều kiện cho các hiểu biết sâu sắc hơn và các phản hồi có ý nghĩa hơn đối với các truy vấn phức tạp.
Ví dụ: Trong một hệ thống y tế, đồ thị tri thức có thể liên kết bệnh nhân (nút) với các triệu chứng, thuốc, và kết quả xét nghiệm (các nút khác) thông qua các mối quan hệ như “biểu hiện”, “đang dùng”, hoặc “có kết quả” (cạnh).
Do đó giúp bác sĩ nhanh chóng thấy được bức tranh tổng thể về tình trạng sức khỏe.
Đồ thị tri thức như tài nguyên chính
Trong GraphRAG, đồ thị tri thức không chỉ đóng vai trò là kho lưu trữ dữ liệu tĩnh.
Chúng chủ động tăng cường khả năng tạo ra của các mô hình ngôn ngữ lớn (LLM).
Cùng với các đầu ra phụ trợ như tóm tắt cộng đồng và kết quả từ các thuật toán học máy dựa trên đồ thị, đồ thị tri thức trở thành tài nguyên thiết yếu được sử dụng để bổ sung lệnh khi người dùng gửi truy vấn.
Quá trình tăng cường này có nghĩa là khi một LLM tạo ra câu trả lời, nó làm như vậy với ngữ cảnh phong phú hơn được rút ra từ cấu trúc của đồ thị.
Hệ thống có thể kết hợp các thực thể liên quan và mối quan hệ của chúng trực tiếp vào lệnh.
Do đó hướng dẫn LLM tập trung vào thông tin có liên quan và kết nối thay vì tạo ra các phản hồi riêng lẻ hoặc chung chung.
Như vậy dẫn đến các câu trả lời không chỉ chính xác về mặt thực tế mà còn thể hiện sự hiểu biết sâu sắc hơn về ngữ cảnh và kết nối.
Tính năng này đặc biệt có ích đối với những câu hỏi đòi hỏi tích hợp thông tin từ nhiều nguồn.
Ví dụ: Khi truy vấn về “tác động của biến đổi khí hậu đối với nông nghiệp châu Á”, GraphRAG có thể tích hợp thông tin từ các nghiên cứu khí hậu, dữ liệu nông nghiệp và các báo cáo kinh tế.
Vì vậy hiển thị mối quan hệ giữa nhiệt độ tăng, lượng mưa thay đổi và sản lượng cây trồng giảm trong một câu trả lời tổng hợp và liên kết.
Tận dụng cấu trúc ngữ nghĩa
Một trong những ưu điểm nổi bật của việc sử dụng đồ thị tri thức trong GraphRAG là khả năng nắm bắt cấu trúc ngữ nghĩa vốn có trong dữ liệu.
Sự phong phú về ngữ nghĩa giúp LLM hiểu rõ hơn về ngữ cảnh xung quanh các thực thể và tương tác của chúng.
Thay vì xử lý các mảnh thông tin như những phần rời rạc, đồ thị tri thức của GraphRAG cho thấy cách các phần này kết hợp với nhau một cách có ý nghĩa.
Hiểu biết nâng cao giúp hệ thống tạo ra các phản hồi vừa chính xác hơn vừa sâu sắc hơn.
Đối với các truy vấn phức tạp liên quan đến việc tổng hợp kiến thức từ nhiều tài liệu hoặc chủ đề khác nhau, cấu trúc đồ thị cung cấp khung cần thiết để liên kết các sự kiện riêng lẻ thành câu trả lời mạch lạc.
Khả năng này rất quan trọng khi xử lý các bộ dữ liệu quy mô lớn hoặc dữ liệu riêng chuyên biệt, nơi phương pháp truy xuất đơn giản có thể bỏ qua các sắc thái hoặc kết nối quan trọng.
Ví dụ: Trong lĩnh vực dược phẩm, khi nghiên cứu về tương tác thuốc, GraphRAG có thể xác định không chỉ tương tác trực tiếp giữa hai loại thuốc, mà còn cả các tương tác gián tiếp thông qua các enzyme gan chung.
Do đó cung cấp thông tin toàn diện về các rủi ro tiềm ẩn mà các phương pháp tìm kiếm đơn giản có thể bỏ qua.
Tự động xây dựng đồ thị tri thức
Một khía cạnh đột phá của GraphRAG là sử dụng các LLM không chỉ để tạo ra phản hồi mà còn để tự động hóa việc tạo đồ thị tri thức từ văn bản phi cấu trúc.
Theo truyền thống, xây dựng và duy trì đồ thị tri thức đòi hỏi nỗ lực thủ công đáng kể từ các chuyên gia.
Đây là những người phải lập danh mục các thực thể và mối quan hệ một cách cẩn thận.
GraphRAG giảm thiểu nỗ lực này đáng kể khi sử dụng LLM để phân tích văn bản thô và tự động trích xuất các thực thể và mối quan hệ liên quan.
Tự động hóa làm cho xây dựng đồ thị tri thức dễ tiếp cận và có thể mở rộng hơn.
Vì vậy hỗ trợ các tổ chức áp dụng phân tích dựa trên đồ thị mà không cần chi phí cao và mất nhiều thời gian tạo đồ thị thủ công.
Bằng cách tối ưu hóa quy trình này, GraphRAG mở ra những cơ hội mới cho các ứng dụng thực tế khi trích xuất kiến thức kịp thời và chính xác là điều cần thiết.
Có thể kế đến phân tích các bộ dữ liệu riêng tư không thể chia sẻ với các mô hình bên ngoài để huấn luyện.
Ví dụ: Một công ty luật có thể sử dụng GraphRAG để tự động phân tích hàng nghìn tài liệu pháp lý, tạo ra đồ thị tri thức liên kết các vụ án, luật định, và các bên liên quan.
Vì vậy giúp luật sư nhanh chóng tìm kiếm các tiền lệ liên quan hoặc mối quan hệ pháp lý mà trước đây có thể mất nhiều ngày để phát hiện thủ công.
Trích xuất thực thể và mối quan hệ
Chia tài liệu thành nhiều đơn vị
GraphRAG bắt đầu bằng cách chia toàn bộ bộ sưu tập văn bản đầu vào hay còn gọi là kho ngữ liệu thành những phần nhỏ hơn, dễ quản lý được gọi là “TextUnits” (Đơn vị Văn bản).
Phân đoạn giúp phân tích và xử lý văn bản một cách có tổ chức dễ dàng hơn.
Mỗi TextUnit đóng vai trò như một đơn vị cơ bản cho các bước xử lý tiếp theo và giúp tham chiếu chính xác trở lại văn bản nguồn gốc trong kết quả đầu ra.
Phương pháp này quan trọng vì nó ngăn hệ thống bị quá tải bởi các khối văn bản lớn và cải thiện độ chính xác của việc trích xuất.
Bằng cách làm việc trên các đoạn nhỏ hơn, GraphRAG có thể tập trung vào việc trích xuất thông tin chi tiết với ít nhiễu và mơ hồ hơn.
Phân đoạn cũng hỗ trợ khả năng truy xuất nguồn gốc, giúp người dùng theo dõi thông tin được trích xuất đến từ phần nào trong văn bản gốc.
Ví dụ: Khi xử lý một cuốn sách y khoa dài 500 trang, GraphRAG có thể chia nó thành các đơn vị văn bản khoảng 1-2 trang.
Điều này giúp hệ thống có thể phân tích chi tiết các phần về triệu chứng bệnh, phương pháp điều trị và liều lượng thuốc một cách riêng biệt, thay vì phải xử lý toàn bộ thông tin cùng một lúc.
Trích xuất dựa trên mô hình LLM
Sau khi văn bản được phân đoạn, GraphRAG sử dụng các mô hình ngôn ngữ lớn (LLM) để đọc và phân tích từng TextUnit.
Được hướng dẫn bởi các lệnh được thiết kế cẩn thận, LLM thực hiện một số trích xuất quan trọng:
Thực thể
- Đây là những đối tượng, khái niệm hoặc sự vật quan trọng được đề cập trong văn bản, như tên người, địa điểm, tổ chức, sản phẩm hoặc thuật ngữ kỹ thuật.
- Lệnh trích xuất thường yêu cầu LLM cung cấp tên của thực thể, một loại chung (giữ các danh mục rộng thay vì quá cụ thể), và mô tả chi tiết về thuộc tính và chức năng của nó.
Mối quan hệ
- Đây là những liên kết hoặc tương tác giữa các thực thể đã được xác định trong cùng một TextUnit.
- Các lệnh yêu cầu chỉ định thực thể nguồn, thực thể đích và mô tả bản chất mối quan hệ của chúng.
Tuyên bố chính
- Đây là những phát biểu hoặc khẳng định quan trọng được đưa ra trong TextUnit đóng góp thông tin có giá trị.
Chất lượng của đồ thị tri thức kết quả phụ thuộc trực tiếp vào mức độ chính xác và toàn diện mà các yếu tố này được trích xuất.
Do đó, kỹ thuật xây dựng lệnh, thiết kế hướng dẫn hiệu quả cho LLM là cần thiết để đảm bảo các thực thể và mối quan hệ liên quan được nắm bắt chính xác.
Ví dụ: Khi phân tích một bài báo nghiên cứu về thuốc kháng sinh, LLM có thể trích xuất thực thể như “penicillin” (loại: thuốc), “Staphylococcus aureus” (loại: vi khuẩn), và mối quan hệ “ức chế” giữa penicillin và vi khuẩn, cùng với tuyên bố chính “Kháng thuốc penicillin đang gia tăng ở các bệnh viện.”
Điều chỉnh theo lĩnh vực cụ thể
Các lĩnh vực hoặc ngành khác nhau ưu tiên các loại thực thể và mối quan hệ khác nhau.
Ví dụ: trong các bài báo tin tức, các thực thể như “người”, “địa điểm” và “tổ chức” quan trọng nhất, cùng với các mối quan hệ như “làm việc cho” hoặc “đặt tại”.
Ngược lại, trong các văn bản hóa học, các thực thể có thể bao gồm “phân tử”, “enzyme” hoặc “phản ứng”, trong khi các mối quan hệ có thể là “xúc tác” hoặc “khử”.
Nhận thức được sự đa dạng này, GraphRAG kết hợp nhận thức về lĩnh vực vào quá trình trích xuất của mình.
Hệ thống có thể điều chỉnh việc trích xuất thực thể và mối quan hệ theo nhu cầu cụ thể của các lĩnh vực chủ đề khác nhau để nâng cao tính liên quan và độ chính xác.
Tính linh hoạt này rất quan trọng vì sử dụng các tiêu chí trích xuất chung cho tất cả các lĩnh vực sẽ dẫn đến các đồ thị ít ý nghĩa hơn và kết quả truy vấn kém hơn.
Ví dụ: Trong lĩnh vực tài chính, GraphRAG có thể được điều chỉnh để nhận diện các thực thể như “cổ phiếu”, “quỹ đầu tư”, “lãi suất” và các mối quan hệ như “đầu tư vào”, “biến động theo”, với các thuật toán phù hợp để phân tích xu hướng thị trường và dự báo kinh tế.
Tự động hóa điều chỉnh lệnh
Một tính năng sáng tạo của GraphRAG là khả năng “tự điều chỉnh”.
Khi được giới thiệu vào một lĩnh vực dữ liệu mới, hệ thống tự động tạo ra các lệnh trích xuất phù hợp bằng cách sử dụng một mẫu nhỏ (khoảng 1%) dữ liệu từ lĩnh vực đó.
Nó yêu cầu LLM đề xuất các loại thực thể, mối quan hệ phù hợp nhất và các ví dụ trích xuất mẫu (few-shot examples) được điều chỉnh cho nội dung mới này.
Tự động hóa tăng tốc đáng kể quá trình điều chỉnh GraphRAG cho các lĩnh vực mới mà không cần công sức kỹ thuật lệnh thủ công.
Bằng cách giảm nỗ lực con người trong thiết kế lệnh, tự điều chỉnh làm cho GraphRAG trở nên thực tế và có khả năng mở rộng hơn trong nhiều ứng dụng đa dạng.
Mặc dù có sự đổi mới này nhưng để triển khai thành công vẫn phụ thuộc nhiều vào chất lượng của quá trình trích xuất ban đầu.
Để đạt được đồ thị tri thức đáng tin cậy đòi hỏi đầu tư vào kỹ năng kỹ thuật lệnh, tùy chỉnh theo lĩnh vực (dù là thủ công hay tự động).
Vì vậy cần có các bước bổ sung như làm sạch dữ liệu và xác thực để đảm bảo thông tin được trích xuất đáng tin cậy và hữu ích.
Ví dụ: Khi áp dụng GraphRAG vào lĩnh vực luật pháp, hệ thống có thể tự phân tích một tập nhỏ các văn bản pháp lý và xác định các thực thể quan trọng bao gồm “điều luật”, “tòa án”, “bị cáo”, và “phán quyết”, cùng với các mối quan hệ như “áp dụng cho”, “xét xử bởi”, và “phán quyết đối với.
Từ đó tự động tạo ra các lệnh trích xuất tối ưu cho toàn bộ cơ sở dữ liệu pháp lý.
Xây dựng cấu trúc cộng đồng phân cấp
Sử dụng phân cụm phân cấp
GraphRAG sử dụng các kỹ thuật phân cụm phân cấp trên đồ thị tri thức để phát hiện các nhóm nút, hay thực thể.
Chúng có kết nối dày đặc với nhau so với kết nối của chúng với các nút bên ngoài nhóm.
Hệ thống đặc biệt sử dụng thuật toán Leiden, một phương pháp mạnh mẽ được thiết kế để phát hiện các cộng đồng như vậy trong mạng lưới phức tạp.
Thuật toán này xác định các cụm mà mối quan hệ (cạnh) giữa các thực thể (nút) mạnh hơn hoặc thường xuyên hơn đáng kể trong cụm so với với các thực thể bên ngoài.
Về bản chất, nó tìm ra các “cộng đồng” thực thể có liên quan chặt chẽ về mặt ngữ nghĩa hoặc chức năng dựa trên cách cấu trúc kết nối của đồ thị.
Bước này vượt ra ngoài các thực thể riêng lẻ để nhận diện các nhóm có ý nghĩa phản ánh các chủ đề hoặc khái niệm mạch lạc được nhúng trong dữ liệu.
Ví dụ: Trong phân tích mạng xã hội, thuật toán có thể phát hiện một cộng đồng gồm các người dùng thường xuyên tương tác với nhau về chủ đề “trí tuệ nhân tạo”, một cộng đồng khác tập trung vào “phát triển bền vững” và các kết nối giữa các cộng đồng này thông qua người dùng quan tâm đến cả hai lĩnh vực.
Hình thành cấu trúc cộng đồng phân cấp
Kết quả của quá trình phân cụm này không chỉ là một tập hợp các cộng đồng riêng biệt mà là một cấu trúc cộng đồng phân cấp.
Các cộng đồng nhỏ, gắn kết chặt chẽ nằm trong các cộng đồng lớn hơn.
Do đó tạo thành các lớp đại diện cho chủ đề hoặc khái niệm rộng hơn bao gồm các chủ đề con cụ thể hơn.
Tổ chức phân cấp này giúp đồ thị tự nhiên nắm bắt các cấp độ trừu tượng khác nhau.
Ví dụ: một cộng đồng nhỏ có thể tập trung vào một sự kiện hoặc người cụ thể, trong khi một cộng đồng lớn hơn có thể nhóm nhiều sự kiện hoặc chủ đề liên quan thành một danh mục rộng hơn.
Khi được hình dung hóa, hệ thống phân cấp có thể được biểu diễn bằng các nút được mã hóa màu chỉ ra thành viên trong các cộng đồng ở các cấp độ khác nhau.
Vì vậy giúp người dùng trực quan nắm bắt cấu trúc đa lớp của đồ thị.
Ví dụ: Trong một đồ thị tri thức y học, một cộng đồng nhỏ có thể bao gồm các thực thể liên quan đến “điều trị đau đầu” (như aspirin, caffeine, nghỉ ngơi), nằm trong cộng đồng lớn hơn về “đau đầu” (bao gồm nguyên nhân, triệu chứng, điều trị), và cộng đồng này lại nằm trong cộng đồng rộng hơn về “rối loạn thần kinh”.
Tóm tắt từ dưới lên về các cộng đồng
Sau khi xác định cấu trúc cộng đồng phân cấp, GraphRAG tạo ra các bản tóm tắt cho mỗi cộng đồng theo cách tiếp cận từ dưới lên.
Nó bắt đầu bằng cách tạo các bản tóm tắt chi tiết cho các cộng đồng nhỏ hơn, cấp thấp hơn.
Những bản tóm tắt chi tiết này sau đó đóng vai trò là đầu vào để tạo ra các bản tóm tắt của các cộng đồng lớn hơn, cấp cao hơn.
Cách phân lớp tóm tắt này có nghĩa là thông tin chi tiết ở cấp độ vi mô được tổng hợp thành các tổng quan rộng hơn ở cấp độ vĩ mô.
Cách tiếp cận như vậy đảm bảo bản chất của các chủ đề nhỏ hơn được bảo toàn và tích hợp khi mô tả các cụm chủ đề lớn hơn.
Quá trình tóm tắt này hỗ trợ điều hướng và hiểu các bộ dữ liệu phức tạp một cách hiệu quả bằng cách chưng cất lượng thông tin khổng lồ thành các khái niệm trừu tượng có ý nghĩa.
Ví dụ: Khi phân tích một bộ dữ liệu nghiên cứu khoa học lớn, GraphRAG có thể đầu tiên tóm tắt các cộng đồng cụ thể như “các nghiên cứu về protein prion”, sau đó tích hợp chúng vào tóm tắt lớn hơn về “các bệnh thoái hóa thần kinh”.
Cuối cùng vào một tổng quan về “nghiên cứu thần kinh học”, mỗi cấp giữ lại thông tin quan trọng từ cấp dưới.
Kích hoạt trừu tượng hóa đa cấp
Cấu trúc cộng đồng phân cấp và các bản tóm tắt liên quan cung cấp cho GraphRAG một khả năng mạnh mẽ: hiểu và phân tích dữ liệu ở nhiều cấp độ trừu tượng.
Thay vì chỉ kiểm tra các thực thể và mối quan hệ riêng lẻ, GraphRAG có thể nắm bắt các chủ đề ngữ nghĩa lớn hơn được đại diện bởi các cộng đồng này.
Thông tin đa cấp đặc biệt có giá trị khi trả lời các câu hỏi hoặc truy vấn “toàn cục” đòi hỏi tổng quan về toàn bộ bộ dữ liệu—một lĩnh vực mà các phương pháp RAG truyền thống gặp khó khăn.
Bằng cách tổ chức thông tin theo phân cấp và tóm tắt ở các quy mô khác nhau, GraphRAG giúp các mô hình LLM lập luận về các mẫu và chủ đề cấp cao.
Vì vậy, phát hiện và tóm tắt cộng đồng trong GraphRAG không chỉ đơn thuần là công cụ tổ chức đồ thị mà còn là cơ chế để trừu tượng hóa và tổng hợp thông tin.
Điều này giúp GraphRAG vượt trội trong khám phá kiến thức và phân tích toàn diện trên các bộ sưu tập văn bản lớn, phức tạp.
Do đó nó đặc biệt phù hợp để giải quyết các thách thức nghiên cứu phức tạp và dữ liệu thực tế.
Ví dụ: Khi một nhà nghiên cứu hỏi: “Những xu hướng chính trong nghiên cứu về tiểu đường trong hai thập kỷ qua là gì?”, GraphRAG có thể cung cấp tổng quan toàn diện bằng cách tổng hợp thông tin từ các cộng đồng cấp cao về phương pháp điều trị, nguyên nhân di truyền, và các biến chứng, thay vì chỉ trả về các đoạn văn bản phù hợp nhất từ các tài liệu riêng lẻ như các hệ thống RAG truyền thống.
Tăng cường truy xuất (RAG) trong GraphRAG
Cơ chế truy xuất thông tin từ đồ thị
Truy xuất ngoài tương đồng ngữ nghĩa
Khi nhận được một truy vấn, GraphRAG không chỉ đơn thuần thực hiện tìm kiếm tương đồng ngữ nghĩa để tìm các đoạn văn bản phù hợp với biểu diễn vector của truy vấn.
Thay vào đó, nó truy xuất các phần tử đồ thị liên quan đến truy vấn.
Điều này có nghĩa là hệ thống hiểu và điều hướng cấu trúc đồ thị để xác định các thực thể, mối quan hệ và nhóm ngữ cảnh phù hợp thay vì chỉ dựa vào việc khớp văn bản gần đúng.
Phương pháp này giúp GraphRAG khai thác ngữ nghĩa rõ ràng được mã hóa trong đồ thị, đại diện cho các kết nối, phân cấp và mối quan hệ thường bị thiếu trong các nhúng văn bản thô.
Vì vậy truy xuất trở nên có mục tiêu hơn và nhận thức ngữ cảnh tốt hơn.
Từ đó cải thiện cả tính liên quan và mạch lạc của thông tin thu thập được.
Ví dụ: Khi người dùng tìm kiếm “tác động của caffeine đối với bệnh Parkinson”, thay vì chỉ trả về các đoạn văn có chứa những từ khóa này, GraphRAG có thể theo dõi mối quan hệ trong đồ thị từ “caffeine” đến “giảm viêm thần kinh” đến “bảo vệ tế bào dopamine” đến “cơ chế bệnh Parkinson”.
GraphRAG tìm ra kết nối có ý nghĩa mà tìm kiếm đơn giản có thể bỏ qua.
Đa dạng các phần tử đồ thị
Cơ chế truy xuất của GraphRAG có thể truy cập nhiều thành phần đồ thị khác nhau tùy thuộc vào yêu cầu của truy vấn.
Những thành phần này bao gồm:
- Nút: Các thực thể riêng lẻ được xác định là liên quan đến truy vấn.
- Bộ ba: Tập hợp hai thực thể được kết nối bởi một mối quan hệ, chẳng hạn như <Thực thể A, Quan hệ X, Thực thể B>.
- Đường dẫn: Chuỗi các nút và cạnh đại diện cho chuỗi mối quan hệ hoặc các bước lập luận logic.
- Đồ thị con: Tập hợp các nút và cạnh liên quan cung cấp ngữ cảnh rộng hơn xung quanh một chủ đề hoặc thực thể.
- Tóm tắt cộng đồng: Các bản tóm tắt được tạo sẵn của các cụm thực thể liên quan, đặc biệt hữu ích cho các truy vấn tổng quan hoặc toàn cục.
Khả năng truy xuất linh hoạt có nghĩa là GraphRAG có thể thu thập thông tin ở nhiều mức độ chi tiết khác nhau.
Phạm vi thu thập từ các sự kiện cụ thể đến những hiểu biết chủ đề rộng hơn và điều chỉnh đầu ra của nó theo bản chất câu hỏi của người dùng.
Ví dụ: Khi truy vấn về “Samsung Galaxy S25”, GraphRAG có thể truy lại các nút về thiết bị này, bộ ba như <S25, sản xuất bởi, Samsung>, đường dẫn kết nối S25 với các phiên bản trước, đồ thị con về công nghệ màn hình của nó, và tóm tắt cộng đồng về thị trường điện thoại thông minh cao cấp năm 2025.
Tìm kiếm cục bộ so với toàn cục
Quy trình truy xuất chính xác phụ thuộc vào loại truy vấn và chế độ tìm kiếm được sử dụng.
Ví dụ: trong Tìm kiếm cục bộ tập trung vào các thực thể cụ thể, GraphRAG bắt đầu từ nút đại diện cho thực thể đó và khám phá các nút lân cận trực tiếp và các cạnh liên quan để thu thập thông tin ngữ cảnh.
Kỹ thuật “điều hướng” hoặc “mở rộng” này giúp tập hợp các sự kiện chi tiết, liên kết chặt chẽ liên quan đến thực thể đang được xem xét.
Đối với các truy vấn Tìm kiếm toàn cục đòi hỏi sự hiểu biết tổng thể hoặc tóm tắt về một chủ đề, GraphRAG phụ thuộc nhiều vào các bản tóm tắt cộng đồng được tạo ra trong quá trình phân cụm phân cấp.
Những bản tóm tắt này đóng gói kiến thức cấp cao về các nhóm thực thể liên quan.
Vì thế hỗ trợ phản hồi hiệu quả đối với các câu hỏi rộng hoặc trừu tượng mà các hệ thống RAG truyền thống gặp khó khăn.
Bằng cách lựa chọn chiến lược truy xuất dựa trên mục đích truy vấn, GraphRAG nâng cao cả độ chính xác và tính toàn diện trong kết quả của mình.
Ví dụ: Khi người dùng hỏi “Ai là CEO của Microsoft?”, GraphRAG sử dụng tìm kiếm cục bộ để truy xuất thực thể “Microsoft”, sau đó tìm mối quan hệ “có CEO là” để xác định Satya Nadella.
Nhưng khi hỏi “Làm thế nào điện toán đám mây đang thay đổi ngành công nghiệp phần mềm?”, GraphRAG sử dụng tìm kiếm toàn cục để khai thác các tóm tắt cộng đồng về điện toán đám mây, mô hình kinh doanh phần mềm, và xu hướng công nghiệp.
Nắm bắt thông tin phức tạp
GraphRAG tận dụng cấu trúc và mối quan hệ rõ ràng trong đồ thị tri thức của nó.
Vì vậy nó có khả năng phát hiện thông tin liên quan mà các phương pháp RAG dựa trên vector có thể bỏ qua.
Điều này đặc biệt đúng khi các chi tiết quan trọng bị phân tán trong nhiều phần của bộ dữ liệu hoặc được liên kết thông qua các mối quan hệ phức tạp.
Truy xuất dựa trên đồ thị có thể phát hiện các kết nối tinh tế và ngữ cảnh nhiều lớp bằng cách theo dõi các đường dẫn và đồ thị con.
Do đó cung cấp nền tảng phong phú hơn cho mô hình LLM trong tạo phản hồi tiếp theo.
Điều này đảm bảo ngữ cảnh được đưa vào LLM vừa có liên quan cao vừa toàn diện, cải thiện chất lượng và độ chính xác của câu trả lời cuối cùng.
Ví dụ: Trong lĩnh vực y dược, khi nghiên cứu về tác dụng phụ của một loại thuốc, GraphRAG có thể phát hiện mối liên hệ giữa thuốc đó với một enzyme gan cụ thể.
Sau đó đến một con đường trao đổi chất, rồi đến một protein trong não, cuối cùng liên kết với tác dụng phụ về thần kinh được báo cáo.
Đây là một chuỗi kết nối phức tạp mà hệ thống tìm kiếm thông thường không thể nhận ra khi thông tin này nằm rải rác trong nhiều tài liệu nghiên cứu khác nhau.
Cơ chế sinh văn bản dựa trên ngữ cảnh
Ngữ cảnh tăng cường làm nền tảng
Thông tin được trích xuất từ đồ thị được thu thập và định dạng thành một ngữ cảnh tăng cường bổ sung cho truy vấn ban đầu của người dùng.
Ngữ cảnh tăng cường này sau đó được cung cấp cho LLM cùng với truy vấn, “làm nền tảng” hiệu quả cho đầu ra của mô hình ngôn ngữ trong dữ liệu cụ thể, có cấu trúc từ đồ thị tri thức.
Bằng cách neo quá trình tạo sinh vào ngữ cảnh tăng cường này, GraphRAG hướng LLM ra khỏi việc chỉ dựa vào kiến thức chung đã được huấn luyện trước.
Thay vào đó, nó tập trung vào tạo ra câu trả lời hoàn toàn dựa trên thông tin cụ thể, liên quan đã được truy xuất.
Nền tảng này rất quan trọng để đảm bảo các phản hồi gắn chặt với dữ liệu có thể xác minh thay vì nội dung suy đoán hoặc chung chung.
Ví dụ: Khi được hỏi về “các phương pháp điều trị mới nhất cho bệnh Alzheimer”, thay vì LLM tạo ra thông tin từ kiến thức tổng quát đã được huấn luyện (có thể đã lỗi thời), GraphRAG truy xuất thông tin từ các nút đồ thị về các phương pháp điều trị, thử nghiệm lâm sàng và kết quả nghiên cứu cụ thể để tạo ra câu trả lời dựa trên dữ liệu thực tế có trong kho tri thức.
Giảm ảo tưởng và nâng cao tin cậy
Một trong những lợi ích đáng chú ý nhất của phương pháp này là giảm đáng kể ảo tưởng.
Đây là những trường hợp mà LLM tạo ra thông tin nghe có vẻ hợp lý nhưng không chính xác hoặc bịa đặt.
Bởi vì GraphRAG giới hạn việc tạo ra của LLM chỉ với những gì tồn tại trong ngữ cảnh tăng cường có nguồn gốc từ đồ thị tri thức.
Do đó cơ hội bịa ra các chi tiết sai giảm đáng kể.
Ràng buộc này cải thiện độ tin cậy và độ chính xác tổng thể của câu trả lời.
Đầu ra của mô hình phản ánh dữ liệu đã được trích xuất, cấu trúc hóa và kiểm chứng cẩn thận trong các giai đoạn trước đó.
Vì vậy tạo ra các phản hồi mà người dùng có thể tin tưởng hơn.
Ví dụ: Trong lĩnh vực tài chính, khi người dùng hỏi về “Hiệu suất của quỹ đầu tư XYZ trong quý 2”, hệ thống truyền thống có thể đưa ra các con số xấp xỉ hoặc tạo ra dữ liệu trông có vẻ hợp lý.
Ngược lại, GraphRAG chỉ cung cấp thông tin chính xác đã được trích xuất từ báo cáo tài chính trong đồ thị tri thức, tránh việc tạo ra các số liệu không tồn tại hoặc không chính xác.
Cung cấp nguồn gốc và minh bạch
Một tính năng nổi bật của quá trình tạo sinh dựa trên ngữ cảnh của GraphRAG là khả năng duy trì nguồn gốc và khả năng truy xuất nguồn gốc thông tin.
Khi tạo ra phản hồi, GraphRAG có thể chỉ ra các nút cụ thể, mối quan hệ hoặc thậm chí các đoạn văn bản gốc (TextUnits) từ bộ dữ liệu đã đóng góp vào việc hình thành câu trả lời.
Tính minh bạch giúp người dùng xác minh và kiểm tra chéo nguồn tài liệu đằng sau nội dung được tạo ra.
Thông tin về nguồn gốc như vậy đặc biệt có giá trị trong các ứng dụng đòi hỏi mức độ tin cậy và trách nhiệm cao vì nó bắc cầu giữa việc tạo văn bản tự động và xác nhận của con người.
Ví dụ: Trong một hệ thống hỗ trợ nghiên cứu pháp lý, khi GraphRAG tạo ra phân tích về một vấn đề luật pháp, nó có thể chỉ ra rõ ràng: “Thông tin này được rút ra từ Án lệ Smith v. Jones (2022), đoạn 15, cũng như Điều 42 của Bộ luật Dân sự, và được liên kết với ba vụ án tương tự trong cùng khu vực tài phán”.
Vì vậy cung cấp cho luật sư khả năng kiểm tra nguồn và xác nhận tính chính xác.
Cân bằng giữa trừu tượng và chi tiết
GraphRAG đạt được sự cân bằng giữa trừu tượng hóa thông tin để rõ ràng và việc bảo toàn các kết nối nguồn chi tiết để đảm bảo độ chính xác.
Nó có thể tận dụng các cấu trúc cấp cao hơn như tóm tắt cộng đồng để cung cấp tổng quan rộng hoặc câu trả lời cấp cao cho các truy vấn phức tạp.
Đồng thời, GraphRAG duy trì liên kết mạnh mẽ với các chi tiết cụ thể trong đồ thị tri thức và nguồn dữ liệu gốc.
Điều này đảm bảo các phản hồi không chỉ sâu sắc và mạch lạc mà còn dựa trên bằng chứng có thể xác minh.
Sự kết hợp như vậy làm cho GraphRAG đặc biệt phù hợp cho các lĩnh vực đòi hỏi độ chính xác và tính minh bạch như nghiên cứu khoa học, phân tích pháp lý, hoặc tìm hiểu kiến thức chuyên biệt.
Ví dụ: Trong nghiên cứu về biến đổi khí hậu, GraphRAG có thể cung cấp câu trả lời hai cấp độ.
Ở cấp tổng quan, nó có thể tóm tắt: “Nhiệt độ toàn cầu đang tăng với tốc độ nhanh hơn dự đoán, với năm yếu tố chính đóng góp vào sự tăng tốc này.”
Sau đó, ở cấp chi tiết, nó có thể đưa ra dữ liệu cụ thể từ các nghiên cứu khác nhau, các mô hình khí hậu, và các quan sát vệ tinh.
Tất cả đều có thể được truy xuất nguồn gốc đến các tài liệu nghiên cứu cụ thể trong kho dữ liệu.
Có thể bạn quan tâm
Liên hệ
Địa chỉ
Tầng 3 Toà nhà VNCC 243A Đê La Thành Str Q. Đống Đa-TP. Hà Nội

