In bài viết

Ban hành Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu

(Chinhphu.vn) - Phó Thủ tướng Chính phủ Hồ Quốc Dũng ký Quyết định số 804/QĐ-TTg ngày 06/5/2026 ban hành Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu.

07/05/2026 15:16
Ban hành Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu- Ảnh 1.

Thủ tướng Chính phủ ban hành Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu.

Theo Quyết định, Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu bao gồm:

1. Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu (Phụ lục I) gồm 15 bộ dữ liệu về: ngôn ngữ tiếng Việt và tiếng dân tộc thiểu số; tri thức quốc gia; văn bản pháp luật và văn bản hành chính (không bao gồm văn bản mật); khoa học, công nghệ và đổi mới sáng tạo; dịch vụ công và thủ tục hành chính; y tế và chăm sóc sức khỏe; giáo dục và đào tạo; nông nghiệp; giao thông và đô thị; tài nguyên và môi trường; kinh tế và thị trường; văn hóa, di sản và du lịch; bản đồ và không gian địa lý quốc gia; viễn thông và hạ tầng số; đa ngôn ngữ quốc tế về Việt Nam.

2. Danh mục dữ liệu ưu tiên triển khai phục vụ phát triển trí tuệ nhân tạo (Phụ lục II) được xây dựng trên cơ sở các bộ dữ liệu quy định tại Phụ lục I, gồm 5 nhóm danh mục dữ liệu chính sau:

- Dữ liệu phục vụ phát triển mô hình ngôn ngữ lớn tiếng Việt gồm: Dữ liệu ngôn ngữ tiếng Việt phổ thông; hội thoại và tương tác tiếng Việt; tiếng nói tiếng Việt; ngôn ngữ các dân tộc thiểu số; hướng dẫn và căn chỉnh mô hình; tổng hợp nhân tạo; báo chí và truyền thông; tri thức và thuật ngữ chuyên ngành; pháp luật và văn bản quản lý hành chính; khoa học, học thuật, quy chuẩn kỹ thuật; mã nguồn và lập trình; toán học và suy luận khoa học; văn hóa và lịch sử Việt Nam; dữ liệu từ nguồn mở trên Internet và môi trường số; song ngữ và đa ngôn ngữ.

- Dữ liệu phục vụ phát triển trí tuệ nhân tạo thị giác máy tính gồm: Dữ liệu đa phương tiện phục vụ hiểu ngữ cảnh hình ảnh và video; dữ liệu hình ảnh trong các lĩnh vực y tế, nông nghiệp, giao thông, đô thị và hạ tầng, vệ tinh và viễn thám.

- Dữ liệu phục vụ kiểm thử và đánh giá hệ thống trí tuệ nhân tạo gồm: Dữ liệu đánh giá năng lực hiểu tiếng Việt; năng lực hội thoại tiếng Việt, hiểu biết pháp luật Việt Nam; năng lực lập trình và kỹ thuật; năng lực suy luận và tri thức; hiểu biết văn hóa và xã hội.

- Dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu gồm: Dữ liệu thủ tục hành chính, y tế và chăm sóc và sức khỏe; giáo dục; môi trường và khí hậu; năng lượng và tài nguyên; tài chính và kinh tế; bản đồ số và địa lý quốc gia; hạ tầng viễn thông và mạng số.

- Dữ liệu phục vụ phát triển trí tuệ nhân tạo phục vụ đánh giá an toàn và tin cậy gồm: Dữ liệu phát hiện tin giả và thông tin sai lệch; nhận diện sản phẩm đa phương tiện do trí tuệ nhân tạo tạo ra; kịch bản tấn công và kiểm thử đạo đức trí tuệ nhân tạo; phát hiện mã độc và mối đe dọa an ninh mạng.

Các bộ dữ liệu quy định tại Phụ lục I được triển khai thực hiện trong giai đoạn 2026-2030; trong đó, ưu tiên tập trung cho các danh mục dữ liệu quy định tại Phụ lục II của Quyết định này.

Việc tổ chức thu nhập, tạo lập, chia sẻ và xử lý, sử dụng, khai thác các bộ dữ liệu thuộc Danh mục ban hành kèm theo Quyết định này phải tuân thủ các quy định của pháp luật về dữ liệu , bảo vệ dữ liệu cá nhân, bảo vệ bí mật nhà nước, sở hữu trí tuệ và các pháp luật khác có liên quan.

* Theo Bộ Khoa học và Công nghệ, mục tiêu của việc ban hành Danh mục bộ dữ liệu phục vụ phát triển trí tuệ nhân tạo trong các lĩnh vực thiết yếu nhằm thiết lập hệ sinh thái dữ liệu trí tuệ nhân tạo (AI) quốc gia đồng bộ, mở và an toàn; hoàn thiện các kho dữ liệu lớn (Big Data) và hồ dữ liệu (Data Lake) trong các lĩnh vực thiết yếu để thúc đẩy nghiên cứu và ứng dụng AI vào quản trị nhà nước, phát triển kinh tế số.

Phấn đấu đến năm 2030, 100% các cơ sở dữ liệu ưu tiên được số hóa, chuẩn hóa để tích hợp vào Cơ sở dữ liệu tổng hợp quốc gia phục vụ phát triển AI; làm chủ hoàn toàn các mô hình ngôn ngữ lớn tiếng Việt và các thuật toán AI cốt lõi phù hợp với đặc thù Việt Nam./.