Hậu Quả Của Việc Dùng AI Không Có Trách Nhiệm và Kiến Thức

Khi Khoa Học Bắt Đầu Bị "Ô Nhiễm" Âm Thầm

Một bài correspondence vừa đăng trên The Lancet đặt ra một câu hỏi đáng lo ngại: nếu nền tảng của lập luận khoa học — các tài liệu tham khảo — bắt đầu bị làm giả, điều gì sẽ xảy ra với toàn bộ tòa nhà tri thức đứng trên nền tảng đó?

Nhóm nghiên cứu đã rà soát gần 2,5 triệu bài báo được index trên PubMed và phát hiện một xu hướng đáng báo động: đến đầu năm 2026, cứ khoảng 277 bài báo thì có 1 bài chứa ít nhất một reference fabricated — tức là bài báo được trích dẫn thực chất không hề tồn tại.

Con số này có thể nghe nhỏ. Nhưng hãy nhìn vào tốc độ thay đổi: tỷ lệ này đã tăng hơn 10 lần chỉ trong khoảng hai năm. Và thời điểm bắt đầu tăng mạnh trùng với giai đoạn các công cụ AI viết học thuật phát triển bùng nổ — kể từ cuối năm 2022.

Dữ Liệu Nói Lên Điều Gì?

Hình 1: Đường cong phát triển tài liệu tham khảo ảo trên PubMed. Trước ChatGPT (tháng 11/2022): tăng chậm. Sau bùng nổ AI viết học thuật: tăng mạnh hơn 10 lần, đạt 1/277 bài đầu năm 2026. Nguồn: The Lancet Correspondence 2026 | yhocio.io

Biểu đồ này không phải nói rằng AI là xấu. Nó đang nói rằng AI trong tay người thiếu nền tảng học thuật có thể tạo ra những hậu quả không ai muốn — kể cả người tạo ra chúng.

Tốc độ tăng mạnh nhất không xảy ra vào thời điểm AI được phép — mà xảy ra vào thời điểm nó trở nên đủ dễ dùng để mọi người dùng mà không hiểu nó đang làm gì.

Tại Sao AI "Bịa" Tài Liệu Tham Khảo?

Đây là phần nhiều người hiểu sai nhất. AI không "bịa" theo nghĩa cố ý lừa dối. Bản thân ChatGPT, Claude hay bất kỳ large language model nào đều không "biết" tài liệu nào tồn tại hay không tồn tại theo cách con người biết.

LLM hoạt động bằng cách dự đoán token tiếp theo với xác suất cao nhất, dựa trên toàn bộ văn bản trong tập dữ liệu huấn luyện. Khi bạn yêu cầu AI tìm tài liệu về một chủ đề, nó không "tìm kiếm" trong cơ sở dữ liệu — nó tạo ra một chuỗi văn bản trông giống như tài liệu khoa học, dựa trên các pattern ngôn ngữ nó đã học.

Kết quả là một reference có thể trông hoàn toàn thuyết phục:

Tên tác giả: Cấu trúc họ tên đúng định dạng học thuật
Tên tạp chí: The Lancet, NEJM, JAMA — những cái tên có thật
Năm xuất bản: Hợp lý với chủ đề
Số trang: Định dạng chuẩn
DOI: Nhìn giống thật

Nhưng khi tìm trên PubMed hoặc Crossref: bài báo đó không hề tồn tại.

Hình 2: (Trái) Cơ chế LLM dự đoán token — tạo ra citation có cấu trúc đúng nhưng nội dung không thật; (Giữa) Ví dụ phân biệt tài liệu ảo và tài liệu thật; (Phải) Quy trình 4 bước kiểm chứng bắt buộc khi dùng AI trong nghiên cứu (yhocio.io)

Vấn Đề Không Phải Ở AI — Mà Ở Người Dùng Thiếu Nền Tảng

Đây là điểm quan trọng nhất và cũng dễ bị hiểu lầm nhất.

AI không làm hỏng nghiên cứu khoa học. Người dùng AI mà thiếu nền tảng học thuật để kiểm chứng đầu ra mới là vấn đề.

Có một thực trạng đáng lo ngại đang diễn ra: nhiều người đang dùng AI để thay thế tư duy học thuật thay vì nâng cao nó. Không ít người copy nguyên output từ AI vào bài viết mà gần như không đọc lại. Có những người chưa từng học cách tìm kiếm tài liệu đúng chuẩn, chưa hiểu hierarchy of evidence, chưa biết cách đánh giá risk of bias — nhưng lại dùng AI để viết literature review hoặc xây dựng lập luận khoa học.

Khi đó, AI không còn là công cụ hỗ trợ nữa. Nó trở thành một dạng ảo giác tri thức:

Người dùng có cảm giác mình đang làm nghiên cứu rất nhanh, rất hiệu quả
Bài viết trông trơn tru hơn trước
Proposal nhìn chuyên nghiệp hơn trước
Nhưng nền móng học thuật phía dưới lại rất mong manh
Và nguy hiểm nhất: người dùng thường không nhận ra mình đang sai

Tại Sao Tài Liệu Tham Khảo Không Phải "Phần Phụ"?

Trong nghiên cứu khoa học, reference chưa bao giờ là phần phụ. Nó là nền móng của toàn bộ lập luận.

Khi bạn viết:

"Yếu tố X làm tăng nguy cơ bệnh Y với OR = 2,3 (95% CI: 1,8–2,9)"

Toàn bộ phát biểu đó phải được ủng hộ bằng evidence có thật. Nếu reference phía sau câu đó là fabricated — hoặc tồn tại nhưng thực ra nói điều ngược lại — thì kết luận phía trên trở nên vô nghĩa về mặt khoa học, dù câu văn có hay đến đâu.

Đây là lý do vì sao nhiều editor và publisher hiện nay bắt đầu xem hallucinated citations là một vấn đề research integrity nghiêm trọng — ngang hàng với fabrication dữ liệu hay plagiarism. Cộng đồng học thuật đang nhận ra rằng AI tạo ra không chỉ convenience — nó còn tạo ra một lớp rủi ro mới chưa từng tồn tại ở quy mô lớn trước đây.

Ai Là Người Chịu Rủi Ro Lớn Nhất?

Không phải người đã có nền tảng học thuật vững chắc. Họ sẽ phát hiện và loại bỏ tài liệu ảo trước khi nó đi vào bài viết.

Rủi ro lớn nhất rơi vào người đang học cách làm nghiên cứu — sinh viên y khoa, bác sĩ mới bắt đầu viết bài, giảng viên chưa có nhiều kinh nghiệm học thuật. Họ có thể chưa biết rằng:

Không phải mọi citation trông thật đều là thật
AI không "tra cứu" — AI "tạo ra"
Mỗi reference cần được xác minh độc lập

Trong bối cảnh đó, có một xu hướng đáng lo ngại: người có nền tảng dùng AI để đọc nhanh hơn, phân tích sâu hơn, tìm ý tưởng tốt hơn — và vẫn giữ vai trò là người kiểm định cuối cùng. Người thiếu nền tảng thì dễ bị AI dẫn đi bởi những thứ nghe có vẻ thông minh nhưng không có kiểm chứng.

AI đang làm khoảng cách giữa hai nhóm này ngày càng lớn hơn — chứ không phải thu hẹp nó như nhiều người kỳ vọng.

Hậu Quả Khi Thông Tin Sai Đi Vào Y Khoa và Giáo Dục

Trong nhiều lĩnh vực, tài liệu tham khảo sai chỉ là vấn đề học thuật thuần túy — đáng tiếc nhưng không nguy hiểm.

Trong y khoa và giáo dục y khoa, hậu quả nghiêm trọng hơn nhiều:

Quyết định lâm sàng: Nếu một bác sĩ đọc một bài tổng quan được viết một phần bởi AI, với các reference trông có vẻ thuyết phục nhưng thực ra không tồn tại, và dựa trên đó đưa ra quyết định điều trị — đây không còn là vấn đề học thuật nữa.

Bài giảng: Một slide giảng dạy có citation hallucinated sẽ truyền thông tin sai cho hàng trăm sinh viên. Thông tin đó có thể "bám rễ" trong tư duy của họ nhiều năm sau.

Proposal nghiên cứu: Literature review được xây dựng trên nền tảng tài liệu ảo sẽ làm mỏng toàn bộ logic của nghiên cứu, dù methodology sau đó có chặt chẽ đến đâu.

Sử Dụng AI Có Trách Nhiệm Trong Nghiên Cứu: Nguyên Tắc Thực Hành

AI là công cụ mạnh — không phủ nhận điều đó. Nhưng công cụ càng mạnh thì càng cần người dùng có trách nhiệm. Dưới đây là một số nguyên tắc thực hành:

Những gì AI CÓ THỂ làm tốt:

Tóm tắt ý chính một bài báo bạn đã đọc và cung cấp cho nó
Gợi ý từ khóa tìm kiếm cho một chủ đề
Cải thiện diễn đạt của một đoạn văn bạn đã viết
Phân tích cấu trúc của một argument
Giải thích một khái niệm thống kê bạn chưa hiểu rõ

Những gì AI KHÔNG nên được dùng một mình:

Tạo ra danh sách tài liệu tham khảo mà không kiểm chứng từng cái
Viết literature review mà không đọc bài gốc
Xác nhận một thông tin lâm sàng mà không có nguồn được kiểm chứng
Thay thế việc đánh giá critical appraisal của bài báo

Quy trình kiểm chứng bắt buộc:

Tìm trên PubMed / Crossref: Xác nhận bài báo có tồn tại (pubmed.ncbi.nlm.nih.gov hoặc crossref.org/openurl)
Đọc abstract bài gốc: AI có thể trích dẫn đúng bài nhưng sai ý nghĩa
Kiểm tra ngữ cảnh: Bài gốc có thực sự ủng hộ luận điểm bạn đang đưa ra không?
Dùng công cụ có citation truy xuất được: Perplexity.ai, Scite.ai, Semantic Scholar — những công cụ cung cấp link bài gốc đi kèm

Kỹ Năng Quan Trọng Nhất Của Thập Kỷ Tới

Trong vài năm tới, kỹ năng quan trọng nhất của người làm học thuật sẽ không còn là biết dùng AI. Đó là:

Biết phản biện AI
Biết kiểm tra AI
Biết giới hạn của AI nằm ở đâu

Người không có nền tảng học thuật, dù dùng AI rất thành thạo, vẫn sẽ tạo ra sản phẩm kém chất lượng — chỉ là sản phẩm đó trông có vẻ chuyên nghiệp hơn trước.

Bác sĩ, giảng viên và nhà nghiên cứu không nên đứng ngoài AI — vì AI thực sự là công cụ cực kỳ mạnh. Nhưng để dùng đúng, cần giữ vững điều này: tinh thần khoa học — thói quen kiểm chứng, tư duy phản biện và trách nhiệm với thông tin — không phải là điều AI có thể thay thế. Đó là điều chỉ người làm nghiên cứu có và cần giữ gìn.

Nguồn tham khảo:

Correspondence về fabricated references trên PubMed — The Lancet, 2026
Nguồn phân tích gốc: Tác giả chia sẻ trên mạng xã hội học thuật
PubMed search: pubmed.ncbi.nlm.nih.gov
Crossref verification: crossref.org
Scite.ai — công cụ kiểm chứng citation có AI hỗ trợ

Lưu ý: Dữ liệu trong bài (1/277 bài, tăng 10 lần trong 2 năm) được trích từ bài correspondence đăng trên The Lancet 2026. Độc giả nên tìm bài gốc để xem đầy đủ phương pháp và kết quả.