Không thiếu model mạnh. Thứ thiếu là cách chọn cho đúng việc.
Tháng 3–4/2026 là giai đoạn tăng tốc điên thật của thị trường model. Chỉ trong chưa đầy 2 tháng, MiniMax M2.7, Claude Opus 4.7, Gemini 3.1 Pro và GPT-5.4 lần lượt đẩy mặt bằng chung lên rất cao.
Nhưng nếu nhìn theo góc vận hành, đây không phải cuộc chơi “ai top 1 tuyệt đối”. Đây là bài toán chọn công cụ theo loại việc: code, nghiên cứu dài, workflow desktop, hay self-host để tối ưu chi phí.
Tổng quan nhanh
Theo bản tổng hợp mà Ethan cung cấp, Claude Opus 4.7, Gemini 3.1 Pro Preview và GPT-5.4 cùng đứng top trên Artificial Analysis Intelligence Index v4.0 với điểm 57. MiniMax M2.7 không ở cùng tier closed frontier, nhưng là ứng viên open-source hiếm hoi đủ mạnh để được đem ra so cùng bàn.
1) MiniMax M2.7 — lựa chọn open-source đáng nhìn nhất hiện tại
M2.7 là model MoE với 230B tham số tổng, 10B active mỗi token, 256 experts và context 200K. Điểm đáng chú ý nhất không phải chỉ là kích thước, mà là hướng self-evolving: model có thể tham gia vòng lặp tự phân tích lỗi, sửa code, chạy đánh giá và giữ/rollback thay đổi qua hơn 100 vòng tự động.
Nếu dữ liệu này giữ vững, đây là tín hiệu rất đáng quan tâm cho các team muốn build agent nội bộ nhưng không muốn khóa hoàn toàn vào API closed-source.
- Điểm mạnh: open weights, triển khai linh hoạt, chi phí thấp, tư duy agent/self-improving thú vị.
- Điểm yếu: context 200K ngắn hơn nhóm frontier, benchmark tổng chưa lên tier cao nhất.
2) Claude Opus 4.7 — nếu ưu tiên coding agent, đây là cái tên khó bỏ qua
Opus 4.7 đang nổi bật vì software engineering. Nếu bạn cần một model xử lý codebase khó, review patch phức tạp, hoặc vận hành coding agent ở mức tin cậy cao hơn trước, đây là ứng viên rất nặng ký.
Số liệu Ethan đưa ra cũng nói khá rõ hướng định vị: SWE-bench Verified 87.6%, CursorBench 70%, GPQA Diamond 94.2%, context 1M token, output 128K, và thêm các tính năng như xhigh effort, Task budgets, hay /ultrareview.
- Điểm mạnh: coding mạnh nhất nhóm này, agent engineering chín hơn, vision tốt hơn trước.
- Điểm yếu: giá cao, và tokenizer mới có thể làm cost thực tế đội lên đáng kể.
3) Gemini 3.1 Pro — model dành cho bài toán dài, nặng, nhiều modality
Nếu bạn làm research dài, đọc tài liệu lớn, hoặc cần kéo text + image + audio + video vào cùng một flow, Gemini 3.1 Pro có vị trí rất riêng. Context 2M token hiện là điểm khác biệt quá rõ, và GPQA 94.3% cho thấy hướng lý luận học thuật/scientific reasoning của nó rất mạnh.
Điểm đáng lưu ý là nó vẫn ở trạng thái Preview. Với team làm production, Preview luôn kéo theo rủi ro: behavior drift, pricing/model policy đổi nhanh, latency và tính ổn định chưa chắc như GA.
- Điểm mạnh: context 2M, multimodal đầy đủ, giá tương đối ổn, lý luận khoa học mạnh.
- Điểm yếu: chưa GA, độ trễ cao, coding benchmark chưa vượt Opus.
4) GPT-5.4 — model đáng chú ý nhất nếu mục tiêu là automation có hành động thật
GPT-5.4 không nhất thiết là model “đẹp số nhất” ở mọi benchmark, nhưng nó có một thứ rất thực dụng: hướng đi rõ vào knowledge work + computer use + agentic automation. Nếu bạn cần model có thể chạm vào browser, desktop app, và workflow nhiều bước, thì GPT-5.4 khác phần còn lại ở điểm đó.
Landmark Ethan đưa ra cũng đủ để hiểu định vị: vượt human expert trên GDPval knowledge work benchmark và đạt 75% trên OSWorld. Nghĩa là nó đáng chú ý không chỉ vì trả lời tốt, mà vì có tiềm năng làm việc trong môi trường thao tác thật.
- Điểm mạnh: computer use, workflow automation, hệ sinh thái rộng, hợp team muốn gắn model vào hành động.
- Điểm yếu: Pro tier cực đắt, context standard không dài bằng Gemini.
Bảng so sánh nhanh
| Model | Điểm nổi bật nhất | Phù hợp nhất cho | Điểm cần lưu ý |
|---|---|---|---|
| MiniMax M2.7 | Open-source + self-evolving | Self-host, tối ưu chi phí, agent nội bộ | Chưa ở tier closed frontier cao nhất |
| Claude Opus 4.7 | Coding/SE benchmark cực mạnh | Coding agent, code review, SWE khó | Đắt, tokenizer mới có thể tăng cost thực |
| Gemini 3.1 Pro | 2M context + multimodal đầy đủ | Research dài, multimodal reasoning | Preview, latency cao |
| GPT-5.4 | Computer use + automation | Agent workflow, desktop/browser tasks | Pro tier rất đắt |
Nên chọn cái nào?
- Coding nặng / build agent code: nghiêng về Claude Opus 4.7.
- Research dài / tài liệu lớn / multimodal: nghiêng về Gemini 3.1 Pro.
- Desktop automation / workflow có hành động thật: nghiêng về GPT-5.4.
- Tự host / tiết kiệm / muốn mở: nghiêng về MiniMax M2.7.
Nói ngắn: đừng hỏi “model nào mạnh nhất?”. Hãy hỏi: bạn muốn nó làm việc gì, trong giới hạn chi phí nào, và chịu rủi ro platform đến đâu?
Nếu cần map model stack cho team theo đúng use case thật thay vì benchmark slide, xem thêm ở trang dịch vụ, các case đã triển khai tại case study, hoặc vào thẳng nhận tư vấn.
Nguồn tham chiếu
Nhận lộ trình automation/integration phù hợp hệ thống hiện tại của bạn.