درحال انتقال

نقاشی دیجیتال بوسیله هوش مصنوعی | Google Ai

گوگل از هوش مصنوعی جدیدش رونمایی کرد که می‌تواند بر اساس متون دریافتی تصاویر مرتبط به آن را ایجاد کند. ایده‌ی این سیستم در واقع به این شکل است که کاربران با دادن نوشته‌ و متن به این هوش مصنوعی معادل تصویری آن را مشاهده خواهند کرد. گوگل بر این باور است که هوش مصنوعی Imagen، سطح عمیق و بی‌نظیری از درک زبان و واقع‌گرایی را به کاربران ارائه می‌دهد.

سایت رسمی نقاشی گوگل: Imagen: Text-to-Image Diffusion Models

هوش مصنوعی گوگل

خواستم به بهانه این تکنولوژی به نسل قبلی و نسل جدید این سبک جدید از نقاشی نگاهی تفصیلی داشته باشیم، اما اگر با هوش مصنوعی آشنا نیسیتد، توصیه می‌کنم اول درس مربوط به معرفی هوش مصنوعیAI رو مطالعه کنید.

نسل اول نقاشی هوشمند

این اولین باری نیست ما چنین هوش مصنوعی قدرتمندی را می‌بینیم. برای مثال هوش مصنوعی DALL-E 2 شرکت تحقیقاتی OpenAI که اخیراً نیز رونمایی شده، از چنین قابلیت فوق‌العاده‌ای بهره‌مند است. اما با این حال هوش مصنوعی Imagen گوگل سعی دارد تصاویر واقع بینانه‌تری را به کاربران نشان دهد. محققان این پروژه برای ارزیابی این هوش مصنوعی در مقابل سایر رقبای خود، بنچمارک جدیدی به نام Drawbench را ایجاد کردند. در این وب‌سایت ۲۰۰ متن توسط هوش مصنوعی Imagen و دیگر شرکت‌ها به عکس تبدیل شد و از رأی‌دهندگان خواسته شد تا کیفیت و ارتباط هر تصویر با نوشته را مورد ارزیابی قرار دهند. این افراد اعلام کردند که دقت و صحت تصاویر ایجاد شده توسط Imagen بسیار واقعی‌تر و طبیعی‌تر از سایر مدل‌هاست.

بسیاری از سرویس‌های گوگل بر اساس ویژگی یادگیری ماشین و شبکه عصبی کار می‌کنند. شاید برای شما جالب باشد که در یک بازی با گوگل همبازی شوید و ببینید آیا می‌تواند نقاشی‌های شما را درست حدس بزند یا خیر.

نقاشی یکی از کارهایی است که همه‌ی ما آن‌ را تجربه کرده‌ایم؛ اما اکثر افراد استعداد نقاشی ندارند. حالا گوگل برای راحت‌ کردن نقاشی به کمک کاربران آمده است، شاید در کودکی شما هم برای رسم یک خانه و خورشید و تپه شروع به خط‌خطی کردن صفحه‌های سفید دفتر‌های نقاشی می‌کردید. نقاشی ما شاید منظوری را می‌رساند اما خوب از آب درنمی‌آمد و اغلب به فکر راهی برای بهتر کردن نقاشی‌ها می‌افتادیم؛

معرفی AutoDraw

حالا گوگل در دنیای وب‌سایت‌ها به کمک کودکان گذشته و امروز آمده است تا تنها با رسم خط‌هایی از چیز‌‌هایی که در ذهن دارند، نقاشی‌های زیبا بسازد. در وب‌سایت AutoDraw گوگل که یکی از جدیدترین پروژه‌های Creative Lab به شمار می‌رود، می‌توانید یک طرح سریع برای تبریک تولد یا طرح‌هایی که در ذهنتان وجود دارند، بکشید تا هوش مصنوعی گوگل در چند لحظه بهترین و مرتبط‌ترین پیشنهاد‌های مربوط به آن طرح را به شما نشان دهد و آن را به طرحی بسیار زیبا‌تر تبدیل کند.

نقاشی دیجیتال هوش مصنوعی

گوگل می‌گوید این سرویس می‌تواند خط‌خطی‌های کج و نامعلوم را به یک اثر هنری تبدیل کند، گرچه مشخص است که این آثار با نقاشی‌های حرفه‌ای فاصله بسیار دارند. پس از پایان نقاشی می‌توانید اثر هنری خودتان را در قالب فایل Png دریافت کنید.

خوشبختانه محیط این ابزار بسیار ساده طراحی شده است. در قسمت سمت چپ می‌توانید ابزار‌های مربوط به ترسیم نقاشی و در قسمت بالای صفحه پیشنهاد‌های هوش مصنوعی AutoDraw را مشاهده کنید. علاوه بر نسخه دسکتاپ، اپلیکیشن این سرویس برای ابزار‌های موبایل و تبلت هم در دسترس است. البته به یاد داشته باشید که این وب‌سایت به دلیل وجود تحریم‌ها، به طریق معمول! در دسترس کاربران ایرانی قرار ندارد.

 در این ویدئو بهتر می‌تونید نحوه عملکرد این سیستم رو درک کنید(نکته: ویدئو از یوتیوب لینک شده است)

نسل جدید نقاشی هوشمند Imagen

گوگل از سیستم هوش مصنوعی جدیدی پرده برداشته که می‌تواند با دریافت متن تصویر خلق کند. این سیستم در واقع به کاربر اجازه می‌دهد تا با نوشتن یک متن توصیفی از طریق هوش مصنوعی معادل تصویری آن را ببیند. این شرکت مدعی است که مدل Imagen دارای سطح بی‌بدیلی از واقع‌گرایی و درک عمیقی از زبان‌هاست.

مدل هوش مصنوعی گوگل به راحتی توسط همه کاربران قابل استفاده است. برای مثال اگر بنویسید «تصویر یک گربه پرشین که کلاه گاوچرانی به سر گذاشته، پیراهن قرمز پوشیده و در ساحل گیتار می‌زند» تصویر زیر به دست می‌آید. گوگل می‌گوید در مقایسه‌ای که بین مدل خود و سایر مدل‌های مشابه داشته، فهمیده که کاربران دقت و صحت تصاویر را در این مدل بیشتر می‌پسندند.

اهالی ماونتین ویو شماری از خروجی‌های مدل Imagen را در وب‌سایت این پروژه منتشر کرده‌اند. با این حال، این نمونه‌ها دستچین شده‌اند و ممکن است از بین هزاران خروجی دیگر انتخاب شده باشند که به این خوبی نیستند. مدل Imagen به‌صورت عمومی در دسترس نیست، چون گوگل معتقد است که این مدل هنوز به دلایل مختلف برای استفاده عمومی آماده نیست.

فناوری Imagen گوگل راهکاری برای تبدیل متن به عکس

فناوری Imagen گوگل تصاویر واقعی و بسیار دقیق را از ورودی متن تولید می‌کند. در این فناوری متن توسط رمزگذار بزرگ‌ و ثابت T5-XXL به صورت جاسازی شده کدگذاری می‌شود. جاسازی متن بر روی یک تصویر 64 در 64 با استفاده از یک مدل انتشار شرطی ترسیم می‌شود. نتایج این فناوری بسیار حیرت انگیز هستند. گوگل در مقاله تحقیقاتی خود مدل انتشار متن به تصویر خود را با درک عمیق زبان و سطح استثنایی از فوتورئالیسم ارائه می‌دهد..

گوگل دیزاین کلاب

توصیف اینکه چقدر فناوری Imagen گوگل، شگفت انگیز و دقیق است کمی دشوار است. همانطور که توسط تیم Google Image Brain توضیح داده شد. این سیستم مبتنی بر مدل متن به تصویر است. سیستم متن به تصویر سیستمی است که به طور خودکار متن زبان طبیعی را به تصویری تبدیل می‌کند که معنای آن را نشان می‌دهد. این مدل‌ها به مجموعه‌ای از جفت‌های متن-تصویر برای ترکیب کردن متکی هستند.

هوش مصنوعی، متن توضیحات را تجزیه و تحلیل می‌کند؛ آنچه نوشته شده را درک می‌کند و از یک پایگاه داده بزرگ، تصویر مربوط به هر عنصر متن را ترسیم می‌کند و با استفاده از ویرایش عکس، تصاویر را در یک کلاژ (هنر ترکیب رنگها) ترکیب می‌کند.

نحوه عملکرد Google Imagen به این صورت است؛ که یک رمزگذار، متن عنوان را به عنوان اولین ورودی دریافت می‌کند. این رمزگذار اطلاعات متنی عنوان را به یک نمایش عددی تبدیل می‌کند که محتوای معنایی متن را به تصویر می‌کشند.

Google Imagen نقاشی گوگل دیزاین کلاب

در مرحله بعد، یک مدل تولید تصویر به تدریج نویز یا “TV Static” را به یک تصویر خروجی تبدیل می‌کند. سپس ابزار Imagen شروع به تولید یک تصویر ۶۴×۶۴ پیکسلی می‌کند و پس از دو «رزولوشن فوق‌العاده»، تصویر را به یک عکس ۱۰۲۴×۱۰۲۴ پیکسل تبدیل می‌کند.

پس از آن، یک مدل با وضوح فوق‌العاده برای بزرگ کردن تصویر کوچک با وضوح بیشتر استفاده می‌شود. در نتیجه تصویر به دست آمده با کیفیت مناسب برای بسیاری از رسانه‌های آنلاین، به صورت گرافیکی معنای عنوان شما را منتقل می‌کند.

نقاط ضعف هوش مصنوعی گوگل

«هرچند این رویکرد موجب پیشرفت‌های الگوریتمی سریع در سال‌های اخیر شده، داده‌هایی که از این طریق به دست می‌آیند حاوی کلیشه‌های اجتماعی، نظرات افراطی و توهین‌آمیز یا اشکالات دیگری هستند که به ضرر اقلیت‌ها تمام می‌شود.»

تیم توسعه گوگل Ai

مدل‌های تبدیل متن به تصویر معمولا با مجموعه بزرگی از اطلاعات تعلیم داده می‌شوند که از سطح اینترنت به دست می‌آیند و دستچین نشده‌اند. در نتیجه، مشکلات متنوعی به وجود می‌آید. محققان گوگل می‌گویند:

تبدیل فکرها و ایده‌های شما به نقاشی با استفاده از هوش مصنوعی DALL.E

«اگرچه زیرمجموعه‌ای از این داده‌ها از صافی عبور کرده بود تا نویزها و محتواهای ناخواسته را حذف کند، ولی ما از مجموعه داده LAION-400M هم استفاده کردیم که به داشتن گستره وسیعی از محتواهای نامناسب از جمله تصاویر هرزه‌نگاری، نژادپرستی و کلیشه‌های آسیب‌زننده اجتماعی معروف است.»

در نتیجه، Imagen سوگیری‌های اجتماعی و محدودیت‌های مدل‌های زبانی بزرگ را به ارث برده است. با این حال، در آینده احتمالا بخشی از این مشکلات برطرف خواهند شد.

جمع بندی

شایان ذکر است که برخی نمونه‌های ایجاد شده توسط این هوش مصنوعی در وب‌‌سایت Imagen website قابل مشاهده است. با این حال، این نمونه‌ها به صورت گلچین انتخاب شده‌اند و ممکن است کیفیت تصاویر دیگر در حد این تصاویر نباشد. همچنین باید اشاره کنیم که مدل Imagen به‌صورت عمومی در دسترس کاربران قرار نگرفته، زیرا غول موتور جست‌وجو معتقد است که این مدل هنوز به دلایل مختلف برای استفاده عمومی آماده نیست.

محققان گوگل در رابطه با این هوش مصنوعی می‌گویند: «اگرچه این رویکرد باعث پیشرفت‌های سریع الگوریتمی در سال‌های اخیر شده، اما اطلاعاتی که از این طریق به دست می‌آیند حاوی طنزهای اجتماعی، نظرات افراطی و توهین‌آمیز یا شیو‌ه‌های دیگری هستند که موجب ناراحتی برخی از اقلیت‌ها خواهد شد. در حالی که بسیاری از این داده‌ها و اطلاعات از فیلترهای مختلفی عبور کردند تا محتواهای نامطلوب آنان پاک شود، ما از مجموعه داده LAION-400M هم استفاده کردیم که به داشتن طیف گسترده‌ای از محتوای نامناسب نظیر توهین‌های نژادپرستانه و کلیشه‌های مضر اجتماعی معروف است.»

بدین ترتیب این احتمال وجود دارد که هوش مصنوعی Imagen کلیشه‌ها و مفاهیم مضر اجتماعی را رمزگذاری کرده باشد و آن را در قالب تصاویر مختلف در معرض دید قرار دهد. باید دید در ادامه گوگل می‌تواند برخی از این مشکلات را حل کند یا نه. به نظر می‌رسد که تا رفع نشدن برخی از مشکلات این مدل، گوگل آن را به صورت عمومی منتشر نخواهد کرد.

مفید بود؟

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *