SkyRL মাল্টিমোডাল মডেলের জন্য ভিশন-ল্যাঙ্গুয়েজ RL সাপোর্ট যোগ করেছে

Joerg Hiller এপ্রি ২৪, ২০২৬ ১৬:৩৩

SkyRL ভিশন-ল্যাঙ্গুয়েজ রিইনফোর্সমেন্ট লার্নিং চালু করেছে, যা মাল্টিমোডাল টাস্কের জন্য স্কেলযোগ্য প্রশিক্ষণ সক্ষম করে। এটি AI উন্নয়নে কীভাবে প্রভাব ফেলে তা জানুন।

SkyRL মাল্টিমোডাল মডেলের জন্য ভিশন-ল্যাঙ্গুয়েজ RL সাপোর্ট যোগ করেছে

SkyRL, UC বার্কলের Sky Computing Lab এবং Anyscale দ্বারা তৈরি একটি রিইনফোর্সমেন্ট লার্নিং (RL) লাইব্রেরি, ভিশন-ল্যাঙ্গুয়েজ মডেল (VLM) পোস্ট-ট্রেনিং সাপোর্ট ঘোষণা করেছে। এই আপডেটটি টিমগুলিকে সুপারভাইজড ফাইন-টিউনিং (SFT) এবং RL ওয়ার্কফ্লো ব্যবহার করে মাল্টিমোডাল মডেল প্রশিক্ষণ দেওয়ার সুযোগ দেয়, যা একসাথে ভিজ্যুয়াল এবং টেক্সচুয়াল ডেটা পরিচালনায় সক্ষম মডেলের ক্রমবর্ধমান চাহিদা পূরণ করে।

কম্পিউটার ভিশন টাস্ক, রোবোটিক্স এবং এজেন্টিক রিজনিংয়ের মতো মাল্টিমোডাল ওয়ার্কলোডগুলির জন্য মডেলগুলিকে ভিজ্যুয়াল ইনপুট প্রক্রিয়া করতে, পদক্ষেপ নিতে এবং ফিডব্যাকের উপর ভিত্তি করে অভিযোজিত হতে হয়। SkyRL-এর নতুন কার্যকারিতা VLM-গুলিকে এর ট্রেনিং স্ট্যাকে প্রথম-শ্রেণির নাগরিক করে তোলে, স্থানীয় GPU বা মাল্টি-নোড ক্লাস্টার জুড়ে প্রশিক্ষণ স্কেল করার সরঞ্জাম সরবরাহ করে। এটি SkyRL-এর বিদ্যমান অবকাঠামোর উপর নির্মিত, যা ইতিমধ্যে সফটওয়্যার ইঞ্জিনিয়ারিং বেঞ্চমার্ক এবং Text-to-SQL জেনারেশনের মতো জটিল এজেন্টিক টাস্কগুলিকে সমর্থন করে।

আপডেটের মূল বৈশিষ্ট্যসমূহ

ভিশন-ল্যাঙ্গুয়েজ টাস্কের জন্য RL-এর মূল চ্যালেঞ্জগুলির মধ্যে একটি হল প্রশিক্ষণ এবং ইনফারেন্সের মধ্যে সামঞ্জস্য বজায় রাখা। SkyRL একটি ডিসঅ্যাগ্রিগেটেড পাইপলাইন চালু করে ভিজ্যুয়াল ইনপুট প্রক্রিয়া করার সময় সাধারণ লগ প্রোবাবিলিটি ড্রিফট সমস্যার সমাধান করে। vLLM ইনফারেন্স স্ট্যাককে সত্যের উৎস হিসেবে ব্যবহার করে, প্ল্যাটফর্মটি নিশ্চিত করে যে টোকেনাইজেশন এবং ইনপুট প্রস্তুতি ওয়ার্কফ্লো জুড়ে সামঞ্জস্যপূর্ণ থাকে।

এই পদ্ধতি কেবল প্রশিক্ষণকে স্থিতিশীল করে না বরং ইনপুট প্রক্রিয়াকরণের জন্য CPU ওয়ার্কারগুলির স্বাধীন স্কেলিংও সক্ষম করে, GPU থ্রুপুট যাতে বাধাগ্রস্ত না হয় তা নিশ্চিত করে। আপডেটটি Maze2D নেভিগেশন এবং Geometry-3k-এর মতো টাস্কের জন্য আউট-অফ-দ্য-বক্স রেসিপিও সমর্থন করে, যা ভিজ্যুয়াল জিওমেট্রি রিজনিং প্রয়োজন একটি ডেটাসেট। প্রাথমিক ফলাফলগুলি Qwen3-VL 8B Instruct-এর মতো বড় মডেল আকারেও উন্নত প্রশিক্ষণ স্থিতিশীলতা দেখিয়েছে।

AI উন্নয়নে প্রভাব

SkyRL মাল্টিমোডাল মডেল প্রশিক্ষণে স্কেলযোগ্য RL এবং SFT-এর জন্য একটি প্রধান প্ল্যাটফর্ম হিসেবে নিজেকে প্রতিষ্ঠিত করছে। Tinker API-এর মতো সরঞ্জামগুলির সাথে একীভূত হয়ে, ব্যবহারকারীরা তাদের নিজস্ব অবকাঠামোতে RL ওয়ার্কফ্লো স্থাপন করতে পারে, বাহ্যিক প্রদানকারীদের উপর নির্ভরতা হ্রাস করে। বড় মডেল প্রশিক্ষণের ক্রমবর্ধমান গণনামূলক চাহিদার পরিপ্রেক্ষিতে এটি বিশেষভাবে প্রাসঙ্গিক।

এই অগ্রগতিগুলি এমন সময়ে আসছে যখন বাস্তব-জগতের প্রয়োগে মাল্টিমোডাল AI সিস্টেমের উচ্চ চাহিদা রয়েছে। ক্রমানুসারী সিদ্ধান্ত গ্রহণ, ভিজ্যুয়াল রিজনিং এবং অভিযোজনযোগ্যতার প্রয়োজন এমন টাস্কগুলি—যেমন স্বায়ত্তশাসিত নেভিগেশন এবং সরঞ্জামের সাথে গতিশীল মিথস্ক্রিয়া—উল্লেখযোগ্যভাবে উপকৃত হবে। SkyRL-এর মডুলার ডিজাইন দ্রুত প্রোটোটাইপিংও সমর্থন করে, গবেষক এবং ডেভেলপারদের নতুন অ্যালগরিদম এবং প্রশিক্ষণ প্যারাডাইম নিয়ে পরীক্ষা-নিরীক্ষা করতে সক্ষম করে।

ভবিষ্যতের দিকে তাকানো

SkyRL-এর রোডম্যাপে সিকোয়েন্স প্যাকিং, Megatron ব্যাকএন্ড সাপোর্ট এবং কনটেক্সট প্যারালেলিজম সহ দীর্ঘ-কনটেক্সট প্রশিক্ষণের মতো বৈশিষ্ট্য অন্তর্ভুক্ত রয়েছে। এই আপগ্রেডগুলি জটিল, এজেন্টিক ওয়ার্কলোড পরিচালনার ক্ষমতা আরও বাড়াবে বলে আশা করা হচ্ছে। VLM প্রশিক্ষণে ডুব দিতে আগ্রহী ডেভেলপারদের জন্য, SkyRL টিউটোরিয়াল এবং ডকুমেন্টেশন প্রদান করে।

AI শিল্প ক্রমশ মাল্টিমোডাল সিস্টেমগুলিকে ব্যবহারিক ব্যবহারের ক্ষেত্রে অন্তর্ভুক্ত করার সাথে সাথে, এই ধরনের মডেলগুলিকে দক্ষতার সাথে প্রশিক্ষণ এবং ফাইন-টিউন করার ক্ষমতা একটি মূল পার্থক্যকারী হবে। SkyRL-এর সর্বশেষ আপডেট এই বিবর্তনের অগ্রভাগে থাকার প্রতিশ্রুতি প্রতিফলিত করে, অত্যাধুনিক RL গবেষণা এবং স্থাপনার জন্য একটি স্কেলযোগ্য এবং মডুলার ফ্রেমওয়ার্ক প্রদান করে।

ছবির উৎস: Shutterstock