ব্যাখ্যা করা হয়েছে: ভারতের সর্বম এআই মডেল কী যা নিয়ে গুগলের সিইও সুন্দর পিচাই বেশ মুগ্ধ
গুগল সিইও সুন্দর পিচাই বলেছেন যে তিনি সর্বম এআই এর কাজ দেখে মুগ্ধ। চলমান ইন্ডিয়া এআই ইমপ্যাক্ট সামিট 2026-এ বক্তৃতা করতে গিয়ে, পিচাই বলেন, “আমি যখনই ভারতে ভ্রমণ করি তখন আমি যে বিকাশকারী শক্তি খুঁজে পাই, এটি কোনটির থেকে দ্বিতীয় নয়,” যোগ করে যে দেশের উদ্যোক্তা ইকোসিস্টেম “উন্নতশীল”। পিচাই ভারতীয় ভাষা ও প্রেক্ষাপটের সাথে উপযোগী স্থানীয় এআই মডেল তৈরির জন্য সর্বম এআই-কে বিশেষভাবে হাইলাইট করে বলেছেন যে “সর্বম স্থানীয় AI মডেলগুলি তৈরি করার কাজটি করেছে….আমি এতে কোনো প্রতিবন্ধকতা দেখতে পাচ্ছি না, এবং আমি মনে করি এটি খুব ভাল অবস্থানে রয়েছে”। এআই স্টার্টআপটি সম্প্রতি ইন্টারনেটে ঝড় তুলেছে এবং দাবি করেছে যে তার এআই মডেলটি গুগলের জেমিনি এবং সহ এআই-এর কয়েকটি বড় নামকে ছাড়িয়ে গেছে। OpenAIএর ChatGPT। “সর্বম ভিশন 84.3% অত্যাধুনিক নির্ভুলতা অর্জন করে olmOCR-বেঞ্চে (ইংরেজি শুধুমাত্র উপসেট) জেমিনি 3 প্রো এবং সাম্প্রতিক ওসিআর মডেলগুলির মতো ডিপসিক ওসিআর 2-এর মতো পারফরমিং ফ্রন্টিয়ার মডেলগুলিতে, প্রত্যুশ কুমার, সিইও, সর্বম এআই লিখেছেন৷
ভারতের সর্বম এআই কী যার প্রশংসা করেছেন সুন্দর পিচাই
2023 সালের আগস্ট মাসে বিবেক রাঘবন এবং প্রত্যুষ কুমার দ্বারা সর্বম প্রতিষ্ঠা করা হয়েছিল। একটি ব্লগ পোস্টে, কোম্পানি ব্যাখ্যা করেছে যে তার সর্বম এআই মডেলটি চিত্র ক্যাপশনিং, দৃশ্য পাঠ্য স্বীকৃতি, চার্ট ব্যাখ্যা এবং জটিল টেবিল পার্সিং সহ বিভিন্ন ভিজ্যুয়াল বোঝার কাজ করতে সক্ষম। কোম্পানির একটি লক্ষ্য হল ভারতের জ্ঞানকে আনলক করা যা প্রকৃত নথি, স্ক্যান করা সংরক্ষণাগার এবং ঐতিহাসিক সংগ্রহগুলিতে এমবেড করা থাকে। আরেকটি মূল সমস্যা যা কোম্পানি কাজ করছে তা হল ভারতীয় ব্যবহারকারীদের কাছে AI কার্যকারিতা আনা। “বেশিরভাগ বৈশ্বিক মডেলগুলি ভারতীয় ভাষাগুলিকে গৌণ হিসাবে বিবেচনা করে, প্রায়শই আঞ্চলিক স্ক্রিপ্টগুলির জন্য কম নির্ভুলতা তৈরি করে৷ নির্ভুলতার সীমানাগুলিকে ঠেলে দেওয়ার পাশাপাশি, আমাদের VLM হল একটি অনুমান-দক্ষ 3B রাজ্য-স্পেস মডেল,” কোম্পানি বলেছে৷সর্বম এআই মডেল, সংস্থাটি বলে, বিভিন্ন আর্থিক নথি, সাহিত্য, সংবাদপত্র, ঐতিহাসিক পাঠ্য এবং আরও অনেক কিছু সহ 22টি সরকারী ভারতীয় ভাষা কভার করে উচ্চ-মানের ডেটাসেটের উপর প্রশিক্ষণ দেওয়া হয়।সর্বম এআই-এর স্পিচ রিকগনিশন মডেলটি একটি 74-মিলিয়ন-প্যারামিটার মডেলের মধ্যে 10টি ভারতীয় ভাষা সমর্থন করে যা একটি ডিভাইসে প্রায় 294MB ধারণ করে। এটি স্বয়ংক্রিয়ভাবে কথ্য ভাষা সনাক্ত করতে পারে, ব্যবহারকারীকে এটি নির্বাচন করার প্রয়োজন ছাড়াই। মডেলটি প্রায় 8.5x রিয়েল-টাইমে বক্তৃতা প্রক্রিয়া করতে পারে এবং একটি Qualcomm Snapdragon 8 Gen 3 চিপসেটে 300 মিলিসেকেন্ডের কম সময়ের টাইম-টু-ফার্স্ট-টোকেন প্রদান করে। এর স্পিচ সিন্থেসিস মডেলে প্রায় 60 এমবি এবং 24 মিলিয়ন প্যারামিটারের একটি ডিভাইস ফুটপ্রিন্ট রয়েছে। মডেলটি একটি স্ট্যান্ডার্ড বেঞ্চমার্কে 0.0173 এর একটি গড় অক্ষর ত্রুটির হার অর্জন করে, যা নির্দেশ করে যে সংশ্লেষিত বক্তৃতা ভাষা জুড়ে অভিপ্রেত পাঠ্যের সাথে ঘনিষ্ঠভাবে মেলে। এটিতে কাস্টম ভয়েস ক্লোনিংও সমর্থিত যার অর্থ প্রায় এক ঘন্টার অডিও ডেটা ব্যবহার করে একটি নতুন ভয়েস যোগ করা যেতে পারে এবং একই 60MB মডেল ফাইলের মধ্যে স্থাপন করা যেতে পারে।অন্যদিকে, অনুবাদ মডেলটিতে 150 মিলিয়ন প্যারামিটার এবং প্রায় 334MB এর একটি অন-ডিভাইস ফুটপ্রিন্ট রয়েছে। এটি মধ্যবর্তী ভাষার মাধ্যমে রুট না করে 10টি ভারতীয় ভাষা এবং ইংরেজি সহ 110টি ভাষার জোড়া জুড়ে দ্বিমুখী অনুবাদ পরিচালনা করে।
কিভাবে Sarvam AI মিথুন এবং ChatGPT থেকে আলাদা
ভারতের সর্বম এআই, এবং জেমিনি এবং চ্যাটজিপিটি-এর মধ্যে অন্যতম প্রধান পার্থক্য হল ভারতীয় ভাষাগুলির উপর প্রাক্তনের ফোকাস ইংরেজীকে প্রাধান্য দেওয়া এবং বাকি মাধ্যমিকগুলিকে বিবেচনা করা। যেহেতু এটি 22টি ভারতীয় ভাষায় প্রশিক্ষিত, তাই এটি আঞ্চলিক লিপিগুলির জন্য উচ্চতর নির্ভুলতা দিতে পারে।যদিও অন্যান্য মডেলগুলি নথি বা ছবি থেকে পাঠ্য বের করতে যথেষ্ট সক্ষম, সর্বামএআই আরও ভাল বোঝার এবং অতিরিক্ত জ্ঞানের জন্য ভিজ্যুয়াল উপাদানগুলিকে ব্যাখ্যা করতে পারে। এটি ভারতীয় ভাষার জন্য একটি বৃহৎ-স্কেল ইন্ডিক ওসিআর বেঞ্চমার্কের সাথে বোঝার স্তরে বিভিন্ন জটিল নথিতে আরও ভাল কার্যকারিতা নিশ্চিত করে।
সর্বম এআই মডেলের উপলব্ধতা
ডকুমেন্ট ইন্টেলিজেন্স API ফেব্রুয়ারী 2026-এর জন্য বিনামূল্যে, যা ব্যবহারকারীদেরকে সর্বম ভিশনের সাথে স্কেলে অন্বেষণ করতে এবং তৈরি করতে দেয়, আজ সম্পূর্ণ বিনামূল্যে শুরু করার সাথে।
ভারতের সর্বম এআই: মূল বৈশিষ্ট্য
এখানে ভারতের সর্বম এআই মডেলের প্রধান বৈশিষ্ট্যগুলির একটি সংক্ষিপ্ত সারাংশ হল:
- মাল্টিমোডাল ভিশন-ভাষা: এটি চিত্র ক্যাপশন, চার্ট বা টেবিল ব্যাখ্যা আরও সহজে সক্ষম করার জন্য চিত্র এবং পাঠ্যগুলি একসাথে বোঝার বিষয়টি নিশ্চিত করতে সহায়তা করে।
- নথি বোঝার (ভারতীয় ভাষা ফোকাসড): এটিতে ঐতিহাসিক পাঠ্য এবং স্ক্যান করা নথি সহ 22টি ভারতীয় ভাষার জন্য উচ্চ-নির্ভুলতা ওসিআর এবং জ্ঞান আহরণ রয়েছে।
- চার্ট এবং ডেটা ব্যাখ্যা: সর্বম এআই পাঠ্যের চেয়ে বেশি বুঝতে সক্ষম। নথিগুলির চার্ট, ডেটা, চিত্র এবং ভিজ্যুয়াল বিশ্লেষণ।
- বহুভাষিক ভিজ্যুয়াল: এআই মডেল একই নথিতে একাধিক ভাষা জুড়ে ভিজ্যুয়াল উপাদানগুলি বোঝে এবং ব্যাখ্যা করে।
- অগ্রণী কর্মক্ষমতা: সর্বম এআই গ্লোবাল ইংলিশ বেঞ্চমার্কে উৎকর্ষ সাধন করে এবং ভারতীয় ভাষার জন্য সর্বম ইন্ডিক ওসিআর বেঞ্চ প্রবর্তন করে।
- অ্যাক্সেসযোগ্য API: এর ডকুমেন্ট ইন্টেলিজেন্স APIগুলি উত্পাদন-প্রস্তুত এবং ফেব্রুয়ারি 2026-এ পরীক্ষার জন্য ব্যবহারের জন্য বিনামূল্যে।