OpenAI o3 và o4-mini là các mô hình lập luận thị giác mới nhất, đánh dấu bước đột phá trong nhận thức hình ảnh bằng cách tích hợp hình ảnh vào chuỗi suy nghĩ (chain-of-thought), không chỉ nhìn mà còn “suy nghĩ” với hình ảnh
Khả năng này đạt được nhờ việc xử lý hình ảnh người dùng tải lên như cắt, phóng to, xoay, và các thao tác xử lý hình ảnh đơn giản khác, tất cả được thực hiện nội bộ mà không cần dựa vào các mô hình chuyên biệt bên ngoài
Mô hình có thể kết hợp lập luận nâng cao với các công cụ như tìm kiếm web, thao tác hình ảnh, lập trình Python, tạo ra trải nghiệm đa phương thức mạnh mẽ
Đặc điểm nổi bật
Tích hợp hình ảnh vào chuỗi suy nghĩ: Mô hình không chỉ nhận diện hình ảnh mà còn dùng hình ảnh để lập luận, giải thích, và trả lời các câu hỏi phức tạp
Xử lý hình ảnh linh hoạt:
Tự động xoay, phóng to, cắt, lật hình ảnh để lấy thông tin, kể cả khi hình ảnh bị ngược, mờ, nhiều đối tượng
Phân tích sâu các chi tiết, văn bản, biểu đồ, sơ đồ tay vẽ, ảnh chụp màn hình lỗi, v.v.
Tích hợp công cụ:
Truy cập đầy đủ các công cụ trong ChatGPT như duyệt web, lập trình Python, phân tích file, tạo hình ảnh, v.v.
Có thể gọi hàm tùy chỉnh qua API, tự động chọn công cụ phù hợp để giải quyết vấn đề
Ví dụ minh họa
Đọc nội dung từ sổ tay:
Người dùng tải lên ảnh sổ tay, mô hình tự động xoay, phóng to, cắt vùng chứa văn bản và trả lời chính xác nội dung ghi chú
Giải bài toán vật lý, toán học:
Tải lên ảnh bài tập, mô hình phân tích từng bước, giải thích chi tiết, kể cả khi ảnh có nhiều bài hoặc bị ngược
Phân tích biển hiệu, lịch trình xe buýt:
Tải lên ảnh biển hiệu, mô hình phóng to, cắt vùng quan trọng, đọc nội dung, tra cứu lịch trình xe buýt và trả lời chi tiết về điểm dừng, tần suất xe chạy
Giải mê cung, vẽ đường đi:
Tải lên ảnh mê cung, mô hình phân tích đường đi, vẽ đường đỏ trên ảnh bằng các thuật toán xử lý ảnh và đường đi
Ứng dụng và API
API hỗ trợ đa phương thức:
Có thể nhận đầu vào là hình ảnh (URL hoặc base64), kết hợp với văn bản, để phân tích, tạo văn bản, âm thanh, hoặc tạo hình ảnh mới6.
Hỗ trợ nhiều định dạng hình ảnh, tùy chỉnh mức độ chi tiết phân tích
Tạo và chỉnh sửa hình ảnh:
Sử dụng API Images để tạo hoặc chỉnh sửa hình ảnh, hỗ trợ tạo ảnh thực tế, theo ngữ cảnh, kết hợp kiến thức thế giới thực
So sánh với các mô hình chuyên biệt như DALL·E, GPT Image có khả năng hiểu ngữ cảnh và kiến thức sâu hơn
