نقاشی دیجیتال بوسیله هوش مصنوعی | Google Ai
گوگل از هوش مصنوعی جدیدش رونمایی کرد که میتواند بر اساس متون دریافتی تصاویر مرتبط به آن را ایجاد کند. ایدهی این سیستم در واقع به این شکل است که کاربران با دادن نوشته و متن به این هوش مصنوعی معادل تصویری آن را مشاهده خواهند کرد. گوگل بر این باور است که هوش مصنوعی Imagen، سطح عمیق و بینظیری از درک زبان و واقعگرایی را به کاربران ارائه میدهد.
سایت رسمی نقاشی گوگل: Imagen: Text-to-Image Diffusion Models
خواستم به بهانه این تکنولوژی به نسل قبلی و نسل جدید این سبک جدید از نقاشی نگاهی تفصیلی داشته باشیم، اما اگر با هوش مصنوعی آشنا نیسیتد، توصیه میکنم اول درس مربوط به معرفی هوش مصنوعیAI رو مطالعه کنید.
نسل اول نقاشی هوشمند
این اولین باری نیست ما چنین هوش مصنوعی قدرتمندی را میبینیم. برای مثال هوش مصنوعی DALL-E 2 شرکت تحقیقاتی OpenAI که اخیراً نیز رونمایی شده، از چنین قابلیت فوقالعادهای بهرهمند است. اما با این حال هوش مصنوعی Imagen گوگل سعی دارد تصاویر واقع بینانهتری را به کاربران نشان دهد. محققان این پروژه برای ارزیابی این هوش مصنوعی در مقابل سایر رقبای خود، بنچمارک جدیدی به نام Drawbench را ایجاد کردند. در این وبسایت ۲۰۰ متن توسط هوش مصنوعی Imagen و دیگر شرکتها به عکس تبدیل شد و از رأیدهندگان خواسته شد تا کیفیت و ارتباط هر تصویر با نوشته را مورد ارزیابی قرار دهند. این افراد اعلام کردند که دقت و صحت تصاویر ایجاد شده توسط Imagen بسیار واقعیتر و طبیعیتر از سایر مدلهاست.
بسیاری از سرویسهای گوگل بر اساس ویژگی یادگیری ماشین و شبکه عصبی کار میکنند. شاید برای شما جالب باشد که در یک بازی با گوگل همبازی شوید و ببینید آیا میتواند نقاشیهای شما را درست حدس بزند یا خیر.
نقاشی یکی از کارهایی است که همهی ما آن را تجربه کردهایم؛ اما اکثر افراد استعداد نقاشی ندارند. حالا گوگل برای راحت کردن نقاشی به کمک کاربران آمده است، شاید در کودکی شما هم برای رسم یک خانه و خورشید و تپه شروع به خطخطی کردن صفحههای سفید دفترهای نقاشی میکردید. نقاشی ما شاید منظوری را میرساند اما خوب از آب درنمیآمد و اغلب به فکر راهی برای بهتر کردن نقاشیها میافتادیم؛
معرفی AutoDraw
حالا گوگل در دنیای وبسایتها به کمک کودکان گذشته و امروز آمده است تا تنها با رسم خطهایی از چیزهایی که در ذهن دارند، نقاشیهای زیبا بسازد. در وبسایت AutoDraw گوگل که یکی از جدیدترین پروژههای Creative Lab به شمار میرود، میتوانید یک طرح سریع برای تبریک تولد یا طرحهایی که در ذهنتان وجود دارند، بکشید تا هوش مصنوعی گوگل در چند لحظه بهترین و مرتبطترین پیشنهادهای مربوط به آن طرح را به شما نشان دهد و آن را به طرحی بسیار زیباتر تبدیل کند.
گوگل میگوید این سرویس میتواند خطخطیهای کج و نامعلوم را به یک اثر هنری تبدیل کند، گرچه مشخص است که این آثار با نقاشیهای حرفهای فاصله بسیار دارند. پس از پایان نقاشی میتوانید اثر هنری خودتان را در قالب فایل Png دریافت کنید.
خوشبختانه محیط این ابزار بسیار ساده طراحی شده است. در قسمت سمت چپ میتوانید ابزارهای مربوط به ترسیم نقاشی و در قسمت بالای صفحه پیشنهادهای هوش مصنوعی AutoDraw را مشاهده کنید. علاوه بر نسخه دسکتاپ، اپلیکیشن این سرویس برای ابزارهای موبایل و تبلت هم در دسترس است. البته به یاد داشته باشید که این وبسایت به دلیل وجود تحریمها، به طریق معمول! در دسترس کاربران ایرانی قرار ندارد.
در این ویدئو بهتر میتونید نحوه عملکرد این سیستم رو درک کنید(نکته: ویدئو از یوتیوب لینک شده است)
نسل جدید نقاشی هوشمند Imagen
گوگل از سیستم هوش مصنوعی جدیدی پرده برداشته که میتواند با دریافت متن تصویر خلق کند. این سیستم در واقع به کاربر اجازه میدهد تا با نوشتن یک متن توصیفی از طریق هوش مصنوعی معادل تصویری آن را ببیند. این شرکت مدعی است که مدل Imagen دارای سطح بیبدیلی از واقعگرایی و درک عمیقی از زبانهاست.
مدل هوش مصنوعی گوگل به راحتی توسط همه کاربران قابل استفاده است. برای مثال اگر بنویسید «تصویر یک گربه پرشین که کلاه گاوچرانی به سر گذاشته، پیراهن قرمز پوشیده و در ساحل گیتار میزند» تصویر زیر به دست میآید. گوگل میگوید در مقایسهای که بین مدل خود و سایر مدلهای مشابه داشته، فهمیده که کاربران دقت و صحت تصاویر را در این مدل بیشتر میپسندند.
اهالی ماونتین ویو شماری از خروجیهای مدل Imagen را در وبسایت این پروژه منتشر کردهاند. با این حال، این نمونهها دستچین شدهاند و ممکن است از بین هزاران خروجی دیگر انتخاب شده باشند که به این خوبی نیستند. مدل Imagen بهصورت عمومی در دسترس نیست، چون گوگل معتقد است که این مدل هنوز به دلایل مختلف برای استفاده عمومی آماده نیست.
فناوری Imagen گوگل راهکاری برای تبدیل متن به عکس
فناوری Imagen گوگل تصاویر واقعی و بسیار دقیق را از ورودی متن تولید میکند. در این فناوری متن توسط رمزگذار بزرگ و ثابت T5-XXL به صورت جاسازی شده کدگذاری میشود. جاسازی متن بر روی یک تصویر 64 در 64 با استفاده از یک مدل انتشار شرطی ترسیم میشود. نتایج این فناوری بسیار حیرت انگیز هستند. گوگل در مقاله تحقیقاتی خود مدل انتشار متن به تصویر خود را با درک عمیق زبان و سطح استثنایی از فوتورئالیسم ارائه میدهد..
توصیف اینکه چقدر فناوری Imagen گوگل، شگفت انگیز و دقیق است کمی دشوار است. همانطور که توسط تیم Google Image Brain توضیح داده شد. این سیستم مبتنی بر مدل متن به تصویر است. سیستم متن به تصویر سیستمی است که به طور خودکار متن زبان طبیعی را به تصویری تبدیل میکند که معنای آن را نشان میدهد. این مدلها به مجموعهای از جفتهای متن-تصویر برای ترکیب کردن متکی هستند.
هوش مصنوعی، متن توضیحات را تجزیه و تحلیل میکند؛ آنچه نوشته شده را درک میکند و از یک پایگاه داده بزرگ، تصویر مربوط به هر عنصر متن را ترسیم میکند و با استفاده از ویرایش عکس، تصاویر را در یک کلاژ (هنر ترکیب رنگها) ترکیب میکند.
نحوه عملکرد Google Imagen به این صورت است؛ که یک رمزگذار، متن عنوان را به عنوان اولین ورودی دریافت میکند. این رمزگذار اطلاعات متنی عنوان را به یک نمایش عددی تبدیل میکند که محتوای معنایی متن را به تصویر میکشند.
در مرحله بعد، یک مدل تولید تصویر به تدریج نویز یا “TV Static” را به یک تصویر خروجی تبدیل میکند. سپس ابزار Imagen شروع به تولید یک تصویر ۶۴×۶۴ پیکسلی میکند و پس از دو «رزولوشن فوقالعاده»، تصویر را به یک عکس ۱۰۲۴×۱۰۲۴ پیکسل تبدیل میکند.
پس از آن، یک مدل با وضوح فوقالعاده برای بزرگ کردن تصویر کوچک با وضوح بیشتر استفاده میشود. در نتیجه تصویر به دست آمده با کیفیت مناسب برای بسیاری از رسانههای آنلاین، به صورت گرافیکی معنای عنوان شما را منتقل میکند.
نقاط ضعف هوش مصنوعی گوگل
«هرچند این رویکرد موجب پیشرفتهای الگوریتمی سریع در سالهای اخیر شده، دادههایی که از این طریق به دست میآیند حاوی کلیشههای اجتماعی، نظرات افراطی و توهینآمیز یا اشکالات دیگری هستند که به ضرر اقلیتها تمام میشود.»
تیم توسعه گوگل Ai
مدلهای تبدیل متن به تصویر معمولا با مجموعه بزرگی از اطلاعات تعلیم داده میشوند که از سطح اینترنت به دست میآیند و دستچین نشدهاند. در نتیجه، مشکلات متنوعی به وجود میآید. محققان گوگل میگویند:
«اگرچه زیرمجموعهای از این دادهها از صافی عبور کرده بود تا نویزها و محتواهای ناخواسته را حذف کند، ولی ما از مجموعه داده LAION-400M هم استفاده کردیم که به داشتن گستره وسیعی از محتواهای نامناسب از جمله تصاویر هرزهنگاری، نژادپرستی و کلیشههای آسیبزننده اجتماعی معروف است.»
در نتیجه، Imagen سوگیریهای اجتماعی و محدودیتهای مدلهای زبانی بزرگ را به ارث برده است. با این حال، در آینده احتمالا بخشی از این مشکلات برطرف خواهند شد.
جمع بندی
شایان ذکر است که برخی نمونههای ایجاد شده توسط این هوش مصنوعی در وبسایت Imagen website قابل مشاهده است. با این حال، این نمونهها به صورت گلچین انتخاب شدهاند و ممکن است کیفیت تصاویر دیگر در حد این تصاویر نباشد. همچنین باید اشاره کنیم که مدل Imagen بهصورت عمومی در دسترس کاربران قرار نگرفته، زیرا غول موتور جستوجو معتقد است که این مدل هنوز به دلایل مختلف برای استفاده عمومی آماده نیست.
محققان گوگل در رابطه با این هوش مصنوعی میگویند: «اگرچه این رویکرد باعث پیشرفتهای سریع الگوریتمی در سالهای اخیر شده، اما اطلاعاتی که از این طریق به دست میآیند حاوی طنزهای اجتماعی، نظرات افراطی و توهینآمیز یا شیوههای دیگری هستند که موجب ناراحتی برخی از اقلیتها خواهد شد. در حالی که بسیاری از این دادهها و اطلاعات از فیلترهای مختلفی عبور کردند تا محتواهای نامطلوب آنان پاک شود، ما از مجموعه داده LAION-400M هم استفاده کردیم که به داشتن طیف گستردهای از محتوای نامناسب نظیر توهینهای نژادپرستانه و کلیشههای مضر اجتماعی معروف است.»
بدین ترتیب این احتمال وجود دارد که هوش مصنوعی Imagen کلیشهها و مفاهیم مضر اجتماعی را رمزگذاری کرده باشد و آن را در قالب تصاویر مختلف در معرض دید قرار دهد. باید دید در ادامه گوگل میتواند برخی از این مشکلات را حل کند یا نه. به نظر میرسد که تا رفع نشدن برخی از مشکلات این مدل، گوگل آن را به صورت عمومی منتشر نخواهد کرد.