معماری ترانسفورمر یک نوع معماری شبکه عصبی در حوزه یادگیری عمیق است که نه تنها در پردازش زبان طبیعی بلکه در انجام وظایف متنوع دیگر در یادگیری عمیق به کار میرود. نوآوری اصلی در ترانسفورمرها، مکانیزم توجه (Attention Mechanism) است که به مدل این امکان را میدهد تا در زمان ارائه پیشبینیها، بر روی بخشهای مختلف ورودی تمرکز کند.
مکانیزم توجه را میتوان به این شکل توجیه کرد: تصور کنید که شما میخواهید یک جمله از یک زبان به زبان دیگر ترجمه کنید. به جای اینکه به ترتیب هر کلمه را ترجمه کنید، میتوانید به کلمات خاصی در جمله اصلی توجه کنید که بیشترین ارتباط را با کلمهای که در حال ترجمه آن هستید دارند. مکانیزم توجه با اختصاص وزنهای مختلف به کلمات مختلف در توالی ورودی، به مدل اجازه میدهد که روی بخشهای مهم تمرکز کند.
ترانسفورمرها عمدتاً برای وظایفی مانند ترجمه ماشینی مورد استفاده قرار میگیرند. در این وظایف، دو بخش اصلی وجود دارد: کدگذار، که توالی ورودی را پردازش میکند و کدگشا، که توالی ترجمه شده را تولید میکند. هر دو کدگذار و کدگشا از مکانیزم توجه استفاده میکنند.
برای مثال، فرض کنید که میخواهید توالی انگلیسی “The cat is on the mat” را به فرانسوی ترجمه کنید.
در کدگذار، مدل یاد میگیرد کدام کلمات با یکدیگر مرتبط هستند. به عنوان مثال، ممکن است یاد بگیرد که “cat” و “mat” مرتبط هستند زیرا هر دوی آنها شئ هستند و “on” آنها را به یکدیگر وصل میکند. در کدگشا، مدل توالی فرانسوی را کلمه به کلمه تولید میکند. هنگام تولید ترجمه برای یک کلمه خاص، به کلمات مرتبط در توالی انگلیسی توجه میکند. به عنوان مثال، هنگام ترجمه “mat” به فرانسوی، روی “cat” و “mat” از توالی انگلیسی تمرکز میکند.
فرآیند رمزگذاری و رمزگشایی تکراری است، به این معنا که مدل چندین بار از توالی عبور میکند و این فرآیند را چندین بار تکرار میکند تا درک خود از موضوع ارتقاء یابد و ترجمه دقیقتری ارائه دهد. بعد از چندین دوره، مدل توالی ترجمه شده را به فرانسوی تولید میکند،
به عنوان مثال: “Le chat est sur le tapis”
نویسنده: Blackpicto