Mungkin ada kalanya Anda menyuruh seseorang (atau sebaliknya) untuk menggambarkan sesuatu sesuai dengan deskripsi yang diberikan berupa catatan kecil. Misalnya, seperti menggambar burung bewarna kuning dengan sayap bewarna htam dan paruh yang tidak besar.

Kini, dengan kemajuan teknologi yang sangat pesat, sebuah kecerdasan buatan dapat melukiskan berbagai hal hanya dengan deskripsi yang diberikan. Teknologi ini oleh Microsoft Research disebut “Drawing Bot”, yang dapat menghasilkan gambar dari segala hal yang masuk akal mulai seperti penggembalaan ternak, hingga yang imajinatif, seperti bus tingkat dua yang sedang terbang. Setiap gambar berisi rincian yang tidak ada dalam deskripsi teks, yang menunjukkan bahwa kecerdasan buatan ini mengandung imajinasi buatan.

“Jika Anda pergi ke Bing dan mencari burung, Anda bisa mendapatkan gambar burung. Tapi di sini, gambar-gambar itu dibuat oleh komputer, pixel demi pixel, dari nol, ” kata Xiaodong He, seorang peneliti dan manajer riset di Deep Learning Technology Center di laboratorium penelitian Microsoft di Redmond, Washington. “Burung-burung ini mungkin tidak ada di dunia nyata – mereka hanyalah aspek imajinasi komputer kita terhadap burung.”

Mengenal Teknologi GAN

Teknologi canggih Microsoft ini dikenal sebagai Generative Adversarial Network, atau GAN. Jaringan terdiri dari dua model Machine Learning, yang salah satunya menghasilkan gambar dari deskripsi teks dan teks lainnya yang disebut Generator. Sementara yang kedua, dikenal sebagai Discriminator, yang menggunakan deskripsi teks untuk menilai keaslian gambar yang dihasilkan. Generator mencoba untuk mengirimkan gambar palsu melewati Discriminator. Tapi, menariknya, Discriminator tidak pernah gampang dibodohi. Dengan bekerja sama, diskriminator mendorong generator menuju titik kesempurnaan.

Microsoft disini berupaya untuk meniru manusia ketika mereka memfokuskan diri ke teks yang diberikan yang didalamnya terdapat deskripsi seperti apa gambaran yang diinginkan. Untuk meniru kebiasaan manusia ini, peneliti Microsoft membuat apa yang disebut attentional GAN atau AttnGAN yang secara matematis meniru konsep ketika manusia sedang memperhatikan. Teknologi ini dapat dilakukan dengan melihat teks yang dijadikan teks input menjadi kata-kata terpisah yang spesifik untuk menentukan bagian-bagian dari gambar.

Selain soal masalah fokus, teknologi ini juga mempelajari soal tingkah laku manusia dalam akal sehat, seperti dimana burung tersebut seharusnya berada yaitu ketika mereka berada diatas cabang-cabang pepohononan, dikarenakan banyaknya gambar data pengujian yang menampilkan burung yang sedang berada diatas cabang. Inilah yang membuat AttnGAN akan lebih sering menggambarkan gambar burung yang berada diatas cabang-cabang, kecuali kalau input yang diberikan akan berbeda.

Berkaitan soal meniru tingkah laku manusia dalam akal sehat, Microsoft juga melakukan pengujian dengan memberikan input perintah “bus dua tingkat yang sedang mengapung di dana”, hasilnya adalah gambar yang blur dan tidak akurat yang tampak seperti perahu dan bus dua tingkat di sebuah danau dan dikelilingi pegunungan. Hasil gambar ini menandakan bahwa Drawing Bot mengalami kesulitan dalam mengenali baik ketika perahu dapat mengambang di danau atau input teks dari bus yang diinginkan.

Meskipun memang masih belum sempurna. Tapi, setidaknya memberi gambaran bagaimana arah perkembangan AI di masa yang akan datang, dan bagaimana hal ini juga dapat memberi manfaat bagi manusia untuk lebih berkembang lagi.

“Bagi AI dan manusia untuk hidup di dunia yang sama, mereka harus memiliki cara untuk berinteraksi satu sama lain,” jelasnya. “Dan bahasa dan visi adalah dua modalitas terpenting bagi manusia dan mesin untuk berinteraksi satu sama lain.” kata Xiaodong He.

Bagi yang ingin lebih tahu secara mendalam soal riset AttnGAN silahkan mengklik: AttnGAN Paper – MSFT Research

Nah, bagaimanakah tanggapan kalian soal kemajuan Microsoft ini? 😉