Cách đây không lâu, Google đã phát hành Imagen, một công cụ tạo tác bằng trí tuệ nhân tạo. Về cơ bản, chỉ cần bạn đưa ra một câu nói mô tả điều gì đó, nó có thể từ đó tạo ra các bức tranh theo đúng ngữ nghĩa.
So với các hệ thống khác, Imagen được Google mô tả là có "mức độ hiện thực cao chưa từng có và mức độ hiểu biết sâu sắc về ngôn ngữ”. Hệ thống này có thể hiểu văn bản thông qua các mô hình ngôn ngữ khác nhau, sau đó dựa vào các thuật toán phức tạp để tái tạo các hình ảnh có độ trung thực cao, gần với những gì đã được mô tả.
Và mới đây, một người dùng đã thử "hack não" trí tuệ nhân tạo này, bằng cách đặt ra một "đề bài" không theo khuôn mẫu: "Hãy mang tai nghe VR cho những chú hổ phương Đông trong triều đại nhà Tống."
Imagen không hề ngại ngần và chỉ với một cái “búng tay”, hệ thống này đã cho ra đời một kiệt tác mang tên: “Tiger Wear VR”.
Chỉ nhìn qua, bạn cũng có thể nhận ra điểm độc đáo thú vị của bức tranh về hai hổ mang thiết bị thực tế ảo này. Không chỉ riêng phong cách vẽ tranh, mà tai nghe VR dường như phù hợp một cách đặc biệt với con hổ, cũng như toàn bộ bức tranh.
Ngay cả tay cầm và cảm giác vui đùa của hai con hổ cũng được thể hiện một cách rõ ràng và chính xác.
Sau đó, hệ thống tiếp tục đưa ra một sản phẩm khác, với hai con hổ đang đeo tai nghe VR, nhưng nắm tay và nhảy múa cùng nhau.
Thậm chí, chưa dừng lại ở đó. Imagen còn khéo léo thiết kế một phiên bản VR "kết nối", cho phép hai con hổ xem các nội dung thực tế ảo cùng với nhau.
Loạt tranh đã ngay lập tức thu hút sự chú ý của cộng đồng mạng. Và nó cũng khiến nhiều người đặt ra câu hỏi về khả năng cũng như sự thích ứng nhanh nhạy của hệ thống AI này. Và trong lĩnh vực vẽ tranh bằng AI, vẫn còn có rất nhiều gương mặt đại diện khác ngoài Google Imagen.
Kết quả là, một trận chiến vẽ tranh "Tiger Wear VR" đã chính thức bắt đầu.
Ứng cử viên đầu tiên là DALL-E từ OpenAI, công ty trí tuệ nhân tạo do Elon Musk sáng lập. Giống với Imagen, nó cũng là một chương trình trí tuệ nhân tạo có thể tạo ra hình ảnh từ các mô tả bằng văn bản. Và tác phẩm của DALL-E đã nhanh chóng chinh phục được người xem, với phong cách vẽ riêng vô cùng "ngổ ngáo".
Không khó để nhận thấy rằng có sự khác biệt lớn về phong cách giữa tranh của DALL-E và Imagen. Tranh của Imagen có xu hướng đơn giản và tuyến tính hơn, trong khi DALL- E mang phong cách của thể loại tranh sơn dầu.
Và không chỉ vậy, xét về quan niệm nghệ thuật, DALL-E cũng có thể cho ra đời những bức tranh khác đúng với nội dung, mang tính nhân cách hóa cao.
Điều này khiến cộng đồng mạng băn khoăn. Người thì nghiêng về Imagen, người lại thích phong cách tranh của DALL-E. Nhưng xét về sự phá cách và sáng tạo, hầu hết cư dân mạng đều có phần ủng hộ hệ thống AI của Google hơn.
Ngoài hai "họa sĩ AI" kể trên, một cái tên khác cũng tham gia cuộc đấu trí này là AI MidJourney. Đây là một nền tảng mới ra đời và đang cho các nghệ sĩ trên khắp thế giới tham gia thử nghiệm beta. Nền tảng cơ sở dữ liệu của Midjourney là những bức tranh của hàng trăm họa sĩ nổi tiếng khác nhau, cho phép nó có thể nhận dạng và xây dựng nên những phong cách nghệ thuật cho riêng mình.
Tài khoản Twitter @hardmaru, một trong các nghệ sĩ được thử nghiệm MidJourney đã tiến hành bài kiểm tra. Tuy nhiên, kết quả công việc của AI này hơi kỳ lạ. Các bức tranh mang phong cách trừu tượng, khó hình dung và nói thẳng ra là khá xấu. Khó trách khi đây vẫn là một hệ thống mới phát triển và cần thêm thời gian để hoàn thiện cơ sở dữ liệu của mình.
Quay trở lại với Imagen và DALL-E, tại sao phong cách vẽ của chúng lại khác nhau tới vậy?
Cả hai sản phẩm của Open AI và Google đều có thể tạo ra những hình ảnh siêu thực theo mô tả của văn bản, và đã chứng minh rằng máy móc có khả năng sáng tạo giống như một nhà thiết kế. Tuy nhiên, nguyên tắc "sáng tạo" của đôi bên khá khác nhau.
DALL-E sử dụng CLIP để ánh xạ các đặc điểm văn bản với các đặc điểm hình ảnh, sau đó chỉ đạo kiến trúc GAN hoặc mô hình khuếch tán để tạo hình ảnh. Cái gọi là CLIP chính là một mạng nơ-ron được đào tạo trên các hình ảnh và văn bản khác nhau, phân loại nhiều hình ảnh được tạo và chọn các kết quả được tạo ra tốt hơn để hiển thị.
Còn Imagen của Google thì khác. Bằng cách tìm hiểu tường tận văn bản được cung cấp, nó sẽ sử dụng những hình ảnh thật sau đó tinh chỉnh theo cách tốt nhất có thể. Vì vậy, những hình ảnh do công cụ AI này tạo ra trông rất chân thực như thể chúng được tạo ra bởi con người. Phần xử lý ngôn ngữ sử dụng bộ mã hóa T5-XXL của riêng Google, còn phần tạo hình ảnh là một loạt các mô hình khuếch tán, đầu tiên tạo ra các hình ảnh có độ phân giải thấp và sau đó tinh chỉnh theo từng bước một.
T5-XXL của Google có 4,6 tỷ tham số và việc mở rộng quy mô của bộ mã hóa văn bản có thể cải thiện hiệu quả về sự tương đồng giữa văn bản với hình ảnh cũng như độ trung thực của hình ảnh. Ngoài ra, Imagen còn sử dụng một kỹ thuật khuếch tán khác được gọi là tăng cường điều hòa nhiễu, giúp cải thiện khả năng phục hồi của hình ảnh.
Dù đạt kết quả ấn tượng nhưng Google cho biết họ chưa có ý định ra mắt công cụ này để có thể sử dụng rộng rãi trên toàn cầu. Lý do là bởi công ty lo lắng về nguy cơ tiềm ẩn của việc sử dụng sai mục đích, hay những thách thức về mặt đạo đức, thành kiến xã hội, cũng như giới hạn của các công cụ.
Trong khi đó, DALL-E cũng đang gặp phải vấn đề với các "định kiến xã hội". Ví dụ khi yêu cầu tạo ra hình ảnh của một “tiếp viên hàng không”, hầu như tất cả các đối tượng sẽ là phụ nữ. Hay yêu cầu hình ảnh của một “Giám đốc điều hành”, bạn sẽ nhận được một loạt hình ảnh những người đàn ông da trắng.
Vì lý do này, OpenAI cũng quyết định không phát hành DALL-E công khai, nhưng công ty cung cấp quyền truy cập cho những người được chọn tham gia thử nghiệm. Nhưng lịch sử về AI cho chúng ta biết rằng các mô hình chuyển văn bản thành hình ảnh như vậy gần như chắc chắn sẽ được công khai vào một thời điểm nào đó trong tương lai.
Tham khảo NetEase