#14 - Cuộc cạnh tranh ngôi đầu bảng của các mô hình AI
18 November, 2025
Ra mắt năm 2023, LMArena, là một nền tảng công khai với mục tiêu đánh giá các mô hình ngôn ngữ lớn hiện hành dựa trên trải nghiệm người dùng. Danh mục mô hình và thứ hạng sẽ được cập nhật liên tục theo thời gian thực. Từ đó, LMArena có được một bộ dữ liệu ngày càng lớn về sở thích của người dùng đối với câu trả lời của AI, tạo ra một hướng đánh giá mới so với kiểu benchmark tĩnh mà các hãng mô hình vẫn hay dựa vào. Tính đến tháng 4/2025, nền tảng đã ghi nhận hơn 3 triệu lượt so sánh và đánh giá hơn 400 mô hình, đưa nền tảng trở thành một phương thức phổ biến để đối chiếu và đánh giá hiệu năng và mức độ cạnh tranh của các mô hình ngôn ngữ lớn.
Nắm vững vị trí số 1 của Danh mục Text của LMArena suốt gần 03 tháng vừa qua, Gemini 2.5 Pro được dự báo sẽ trở thành AI tốt nhất của năm 2025, tạo ra vị thế hàng đầu cho Google cho cuộc đua AI. Tuy nhiên, càng về cuối năm, các công ty AI càng ráo riết trong việc tung ra các tính năng cải thiện, các mô hình tiên tiến hơn, khiến cho ngôi vị của Gemini 2.5 Pro trở nên lung lay.
Trong bối cảnh đó, câu hỏi được đặt ra là:
Liệu một Mô hình Ngôn ngữ Lớn (LLM) của Google có được xếp hạng nhất tính đến trước 25/12/2025, theo bảng xếp hạng "Text Arena" của LMArena hay không?
Dự báo của ASF
Theo các chuyên gia của ASF nhận định, khả năng một mô hình ngôn ngữ lớn thuộc Google có thể đạt hạng 1 Text Arena của LMArena là 71.8%.
Con số này là kết quả của việc thống kê bảng xếp hạng của LMArena (danh mục Text Arena) từ tháng 06/2025 cho đến nay, đồng thời, đánh giá những tin tức mới đây về sự phát triển của các mô hình AI. Từ tháng 6/2025, khi khoảng điểm giữa hạng 1 và hạng 2 nhỏ hơn 10, xác suất để các mô hình ở hạng 2 có thể vượt lên soán ngôi hạng 1 chỉ rơi vào khoảng 16.7%. Tuy nhiên, việc Grok 4.1 ra mắt bất ngờ và ngay lập tức leo thẳng lên hạng 1 của Text Arena với khoảng cách 31 điểm trong vòng 1 ngày, đã làm giảm xác suất cuối cùng.
Các yếu tố chính ảnh hưởng đến dự báo
Cuộc đua giữa các công ty AI
Việc các công ty AI liên tục cập nhật hiệu năng và công bố các mô hình ngôn ngữ mới là yếu tố lớn nhất ảnh hưởng đến kết quả cuối cùng của Bảng xếp hạng. Trong đó, việc ra mắt GPT 5.1 và Grok 4.1 với những cải tiến về phong cách trả lời, thời gian xử lý ngay lập tức làm gia tăng khả năng Gemini 2.5 Pro không giữ được ngôi vị cho đến cuối năm nay. Tuy nhiên, những tin đồn về việc ra mắt Gemini 3 vào cuối năm nay đã giúp duy trì hy vọng cho Google.
LMArena thay đổi phương pháp xếp hạng
Từ 14/11/2025, Bảng xếp hạng của LMArena sẽ không có “đồng hạng”. Thay vào đó, các mô hình sẽ có Rank Spread, để người xem có thể ước lượng được thứ hạng cao nhất và thấp nhất của một mô hình. Việc thay đổi cách xếp hạng này ảnh hưởng lớn đến kết quả cuối cùng của câu hỏi dự báo khi hoàn toàn loại bỏ khả năng đồng hạng giữa một mô hình của Google và một mô hình khác.
Công chúng và sự “tin tưởng” vào Gemini 2.5 Pro
LMArena là một nền tảng xếp hạng dựa trên sở thích của người dùng, vì vậy quan điểm chủ quan của người dùng đóng vai trò quan trọng đối với kết quả cuối cùng của Bảng xếp hạng. Trong đó, Gemini 2.5 Pro được đánh giá là mô hình AI tốt nhất năm 2025, được thể hiện thông qua các báo cáo chuyên gia và xu hướng trên thị trường dự báo.
Điều cần theo dõi
Con số dự báo phản ánh quan điểm thận trọng của các chuyên gia ASF đối với Bảng xếp hạng của LMArena, phần lớn dựa trên thống kê lịch sử của bảng xếp hạng. Tuy nhiên, trong một giai đoạn mà các công ty AI đang cạnh tranh gay gắt và liên tục cải tiến, đổi mới, không loại trừ khả năng xác suất một mô hình không thuộc Google đạt hạng 1 Bảng xếp hạng trước Giáng sinh 2025 sẽ tăng cao hơn.
Trong thời gian tới, những diễn biến cần tiếp tục theo dõi bao gồm:
Kế hoạch cải thiện Gemini 2.5 Pro hoặc ra mắt Gemini 3 của Google
Sự ra mắt bất ngờ của các công ty AI khác
Cách LMArena cập nhật phương pháp tính điểm và xếp hạng của mình.
Cập nhật dự báo - 19/11/2025
Ngày 18/11, Google chính thức ra mắt Gemini 3, và chỉ trong vòng vài giờ, mô hình này đã leo thẳng lên vị trí số 1 của bảng xếp hạng Text Arena trên LMArena. Theo như đánh giá ban đầu của các chuyên gia ASF, đây là một diễn biến có tác động lớn đến dự báo trước đó.
Ngay sau sự kiện này, đội ngũ phân tích của ASF tiến hành cập nhật dự báo dựa trên:
Diễn biến thực tế của bảng xếp hạng sau khi Gemini 3 xuất hiện;
Khoản “bước nhảy” điểm số giữa Gemini 3 và các mô hình phía sau;
Tốc độ thay đổi vị trí trong 72 giờ đầu sau khi phát hành.
Kết quả cập nhật cho thấy xác suất một mô hình của Google giữ được vị trí số 1 trước 25/12/2025 tăng lên mức 83.6%, cao hơn đáng kể so với mức 71.8% trong báo cáo gốc.
Ý nghĩa của sự điều chỉnh này
Gemini 3 tạo ra hiệu ứng vượt kỳ vọng
Không chỉ duy trì phong độ của dòng Gemini 2.5 Pro, Gemini 3 còn cải thiện mạnh về chất lượng trả lời và tốc độ: hai yếu tố có trọng số cao trong hệ thống đánh giá dựa trên sở thích người dùng. Khoảng cách điểm số ngay ngày đầu cho thấy sức hút vượt trội so với các đối thủ.Thay đổi cán cân trước các đối thủ lớn
Trước ngày 18/11, việc Grok 4.1 bất ngờ chiếm ngôi đầu đã làm giảm xác suất cho Google. Tuy nhiên, sự xuất hiện của Gemini 3 đảo chiều lại xu hướng này khi tạo ra cách biệt ổn định hơn giữa hạng 1 và hạng 2, nâng kỳ vọng Google duy trì vị trí dẫn đầu trong phần còn lại của năm 2025.Dữ liệu lịch sử ủng hộ sự bứt phá
Theo thống kê của ASF, trong 12 trường hợp mô hình mới ra mắt và chiếm ngôi đầu với mức chênh lệch ≥ 20 điểm trong 48 giờ đầu, có đến 10/12 trường hợp mô hình giữ được vị trí này ít nhất 30 ngày tiếp theo. Điều này củng cố thêm mức điều chỉnh tăng của xác suất.
Điều cần tiếp tục theo dõi sau cập nhật
Liệu Gemini 3 có duy trì được khoảng cách điểm số trong 2 tuần tiếp theo hay không.
Những phản ứng mới từ OpenAI, xAI, Anthropic và các mô hình bất ngờ khác.
Với những yếu tố trên, 83.6% phản ánh đánh giá thận trọng nhưng thực tế của ASF trước tốc độ thay đổi rất nhanh của thị trường mô hình AI cuối năm 2025.

