Home LAZY AIAI TIPSGiới thiệu mô hình và khả năng mới: o3 và o4-mini

Giới thiệu mô hình và khả năng mới: o3 và o4-mini

by Bửu Trung
0 comments

  • OpenAI o3 và o4-mini là các mô hình lập luận thị giác mới nhất, đánh dấu bước đột phá trong nhận thức hình ảnh bằng cách tích hợp hình ảnh vào chuỗi suy nghĩ (chain-of-thought), không chỉ nhìn mà còn “suy nghĩ” với hình ảnh

  • Khả năng này đạt được nhờ việc xử lý hình ảnh người dùng tải lên như cắt, phóng to, xoay, và các thao tác xử lý hình ảnh đơn giản khác, tất cả được thực hiện nội bộ mà không cần dựa vào các mô hình chuyên biệt bên ngoài

  • Mô hình có thể kết hợp lập luận nâng cao với các công cụ như tìm kiếm web, thao tác hình ảnh, lập trình Python, tạo ra trải nghiệm đa phương thức mạnh mẽ

Đặc điểm nổi bật

  • Tích hợp hình ảnh vào chuỗi suy nghĩ: Mô hình không chỉ nhận diện hình ảnh mà còn dùng hình ảnh để lập luận, giải thích, và trả lời các câu hỏi phức tạp

  • Xử lý hình ảnh linh hoạt:

    • Tự động xoay, phóng to, cắt, lật hình ảnh để lấy thông tin, kể cả khi hình ảnh bị ngược, mờ, nhiều đối tượng

    • Phân tích sâu các chi tiết, văn bản, biểu đồ, sơ đồ tay vẽ, ảnh chụp màn hình lỗi, v.v.

  • Tích hợp công cụ:

    • Truy cập đầy đủ các công cụ trong ChatGPT như duyệt web, lập trình Python, phân tích file, tạo hình ảnh, v.v.

    • Có thể gọi hàm tùy chỉnh qua API, tự động chọn công cụ phù hợp để giải quyết vấn đề

Ví dụ minh họa

  • Đọc nội dung từ sổ tay:

    • Người dùng tải lên ảnh sổ tay, mô hình tự động xoay, phóng to, cắt vùng chứa văn bản và trả lời chính xác nội dung ghi chú

  • Giải bài toán vật lý, toán học:

    • Tải lên ảnh bài tập, mô hình phân tích từng bước, giải thích chi tiết, kể cả khi ảnh có nhiều bài hoặc bị ngược

  • Phân tích biển hiệu, lịch trình xe buýt:

    • Tải lên ảnh biển hiệu, mô hình phóng to, cắt vùng quan trọng, đọc nội dung, tra cứu lịch trình xe buýt và trả lời chi tiết về điểm dừng, tần suất xe chạy

  • Giải mê cung, vẽ đường đi:

    • Tải lên ảnh mê cung, mô hình phân tích đường đi, vẽ đường đỏ trên ảnh bằng các thuật toán xử lý ảnh và đường đi

Ứng dụng và API

  • API hỗ trợ đa phương thức:

    • Có thể nhận đầu vào là hình ảnh (URL hoặc base64), kết hợp với văn bản, để phân tích, tạo văn bản, âm thanh, hoặc tạo hình ảnh mới6.

    • Hỗ trợ nhiều định dạng hình ảnh, tùy chỉnh mức độ chi tiết phân tích

  • Tạo và chỉnh sửa hình ảnh:

    • Sử dụng API Images để tạo hoặc chỉnh sửa hình ảnh, hỗ trợ tạo ảnh thực tế, theo ngữ cảnh, kết hợp kiến thức thế giới thực

    • So sánh với các mô hình chuyên biệt như DALL·E, GPT Image có khả năng hiểu ngữ cảnh và kiến thức sâu hơn

You may also like

Leave a Comment