ব্যাখ্যা করা হয়েছে: ভারতের সর্বম এআই মডেল কী যা নিয়ে গুগলের সিইও সুন্দর পিচাই বেশ মুগ্ধ


ব্যাখ্যা করা হয়েছে: ভারতের সর্বম এআই মডেল কী যা নিয়ে গুগলের সিইও সুন্দর পিচাই বেশ মুগ্ধ

গুগল সিইও সুন্দর পিচাই বলেছেন যে তিনি সর্বম এআই এর কাজ দেখে মুগ্ধ। চলমান ইন্ডিয়া এআই ইমপ্যাক্ট সামিট 2026-এ বক্তৃতা করতে গিয়ে, পিচাই বলেন, “আমি যখনই ভারতে ভ্রমণ করি তখন আমি যে বিকাশকারী শক্তি খুঁজে পাই, এটি কোনটির থেকে দ্বিতীয় নয়,” যোগ করে যে দেশের উদ্যোক্তা ইকোসিস্টেম “উন্নতশীল”। পিচাই ভারতীয় ভাষা ও প্রেক্ষাপটের সাথে উপযোগী স্থানীয় এআই মডেল তৈরির জন্য সর্বম এআই-কে বিশেষভাবে হাইলাইট করে বলেছেন যে “সর্বম স্থানীয় AI মডেলগুলি তৈরি করার কাজটি করেছে….আমি এতে কোনো প্রতিবন্ধকতা দেখতে পাচ্ছি না, এবং আমি মনে করি এটি খুব ভাল অবস্থানে রয়েছে”। এআই স্টার্টআপটি সম্প্রতি ইন্টারনেটে ঝড় তুলেছে এবং দাবি করেছে যে তার এআই মডেলটি গুগলের জেমিনি এবং সহ এআই-এর কয়েকটি বড় নামকে ছাড়িয়ে গেছে। OpenAIএর ChatGPT। “সর্বম ভিশন 84.3% অত্যাধুনিক নির্ভুলতা অর্জন করে olmOCR-বেঞ্চে (ইংরেজি শুধুমাত্র উপসেট) জেমিনি 3 প্রো এবং সাম্প্রতিক ওসিআর মডেলগুলির মতো ডিপসিক ওসিআর 2-এর মতো পারফরমিং ফ্রন্টিয়ার মডেলগুলিতে, প্রত্যুশ কুমার, সিইও, সর্বম এআই লিখেছেন৷

ভারতের সর্বম এআই কী যার প্রশংসা করেছেন সুন্দর পিচাই

2023 সালের আগস্ট মাসে বিবেক রাঘবন এবং প্রত্যুষ কুমার দ্বারা সর্বম প্রতিষ্ঠা করা হয়েছিল। একটি ব্লগ পোস্টে, কোম্পানি ব্যাখ্যা করেছে যে তার সর্বম এআই মডেলটি চিত্র ক্যাপশনিং, দৃশ্য পাঠ্য স্বীকৃতি, চার্ট ব্যাখ্যা এবং জটিল টেবিল পার্সিং সহ বিভিন্ন ভিজ্যুয়াল বোঝার কাজ করতে সক্ষম। কোম্পানির একটি লক্ষ্য হল ভারতের জ্ঞানকে আনলক করা যা প্রকৃত নথি, স্ক্যান করা সংরক্ষণাগার এবং ঐতিহাসিক সংগ্রহগুলিতে এমবেড করা থাকে। আরেকটি মূল সমস্যা যা কোম্পানি কাজ করছে তা হল ভারতীয় ব্যবহারকারীদের কাছে AI কার্যকারিতা আনা। “বেশিরভাগ বৈশ্বিক মডেলগুলি ভারতীয় ভাষাগুলিকে গৌণ হিসাবে বিবেচনা করে, প্রায়শই আঞ্চলিক স্ক্রিপ্টগুলির জন্য কম নির্ভুলতা তৈরি করে৷ নির্ভুলতার সীমানাগুলিকে ঠেলে দেওয়ার পাশাপাশি, আমাদের VLM হল একটি অনুমান-দক্ষ 3B রাজ্য-স্পেস মডেল,” কোম্পানি বলেছে৷সর্বম এআই মডেল, সংস্থাটি বলে, বিভিন্ন আর্থিক নথি, সাহিত্য, সংবাদপত্র, ঐতিহাসিক পাঠ্য এবং আরও অনেক কিছু সহ 22টি সরকারী ভারতীয় ভাষা কভার করে উচ্চ-মানের ডেটাসেটের উপর প্রশিক্ষণ দেওয়া হয়।সর্বম এআই-এর স্পিচ রিকগনিশন মডেলটি একটি 74-মিলিয়ন-প্যারামিটার মডেলের মধ্যে 10টি ভারতীয় ভাষা সমর্থন করে যা একটি ডিভাইসে প্রায় 294MB ধারণ করে। এটি স্বয়ংক্রিয়ভাবে কথ্য ভাষা সনাক্ত করতে পারে, ব্যবহারকারীকে এটি নির্বাচন করার প্রয়োজন ছাড়াই। মডেলটি প্রায় 8.5x রিয়েল-টাইমে বক্তৃতা প্রক্রিয়া করতে পারে এবং একটি Qualcomm Snapdragon 8 Gen 3 চিপসেটে 300 মিলিসেকেন্ডের কম সময়ের টাইম-টু-ফার্স্ট-টোকেন প্রদান করে। এর স্পিচ সিন্থেসিস মডেলে প্রায় 60 এমবি এবং 24 মিলিয়ন প্যারামিটারের একটি ডিভাইস ফুটপ্রিন্ট রয়েছে। মডেলটি একটি স্ট্যান্ডার্ড বেঞ্চমার্কে 0.0173 এর একটি গড় অক্ষর ত্রুটির হার অর্জন করে, যা নির্দেশ করে যে সংশ্লেষিত বক্তৃতা ভাষা জুড়ে অভিপ্রেত পাঠ্যের সাথে ঘনিষ্ঠভাবে মেলে। এটিতে কাস্টম ভয়েস ক্লোনিংও সমর্থিত যার অর্থ প্রায় এক ঘন্টার অডিও ডেটা ব্যবহার করে একটি নতুন ভয়েস যোগ করা যেতে পারে এবং একই 60MB মডেল ফাইলের মধ্যে স্থাপন করা যেতে পারে।অন্যদিকে, অনুবাদ মডেলটিতে 150 মিলিয়ন প্যারামিটার এবং প্রায় 334MB এর একটি অন-ডিভাইস ফুটপ্রিন্ট রয়েছে। এটি মধ্যবর্তী ভাষার মাধ্যমে রুট না করে 10টি ভারতীয় ভাষা এবং ইংরেজি সহ 110টি ভাষার জোড়া জুড়ে দ্বিমুখী অনুবাদ পরিচালনা করে।

কিভাবে Sarvam AI মিথুন এবং ChatGPT থেকে আলাদা

ভারতের সর্বম এআই, এবং জেমিনি এবং চ্যাটজিপিটি-এর মধ্যে অন্যতম প্রধান পার্থক্য হল ভারতীয় ভাষাগুলির উপর প্রাক্তনের ফোকাস ইংরেজীকে প্রাধান্য দেওয়া এবং বাকি মাধ্যমিকগুলিকে বিবেচনা করা। যেহেতু এটি 22টি ভারতীয় ভাষায় প্রশিক্ষিত, তাই এটি আঞ্চলিক লিপিগুলির জন্য উচ্চতর নির্ভুলতা দিতে পারে।যদিও অন্যান্য মডেলগুলি নথি বা ছবি থেকে পাঠ্য বের করতে যথেষ্ট সক্ষম, সর্বামএআই আরও ভাল বোঝার এবং অতিরিক্ত জ্ঞানের জন্য ভিজ্যুয়াল উপাদানগুলিকে ব্যাখ্যা করতে পারে। এটি ভারতীয় ভাষার জন্য একটি বৃহৎ-স্কেল ইন্ডিক ওসিআর বেঞ্চমার্কের সাথে বোঝার স্তরে বিভিন্ন জটিল নথিতে আরও ভাল কার্যকারিতা নিশ্চিত করে।

সর্বম এআই মডেলের উপলব্ধতা

ডকুমেন্ট ইন্টেলিজেন্স API ফেব্রুয়ারী 2026-এর জন্য বিনামূল্যে, যা ব্যবহারকারীদেরকে সর্বম ভিশনের সাথে স্কেলে অন্বেষণ করতে এবং তৈরি করতে দেয়, আজ সম্পূর্ণ বিনামূল্যে শুরু করার সাথে।

ভারতের সর্বম এআই: মূল বৈশিষ্ট্য

এখানে ভারতের সর্বম এআই মডেলের প্রধান বৈশিষ্ট্যগুলির একটি সংক্ষিপ্ত সারাংশ হল:

  • মাল্টিমোডাল ভিশন-ভাষা: এটি চিত্র ক্যাপশন, চার্ট বা টেবিল ব্যাখ্যা আরও সহজে সক্ষম করার জন্য চিত্র এবং পাঠ্যগুলি একসাথে বোঝার বিষয়টি নিশ্চিত করতে সহায়তা করে।

  • নথি বোঝার (ভারতীয় ভাষা ফোকাসড): এটিতে ঐতিহাসিক পাঠ্য এবং স্ক্যান করা নথি সহ 22টি ভারতীয় ভাষার জন্য উচ্চ-নির্ভুলতা ওসিআর এবং জ্ঞান আহরণ রয়েছে।

  • চার্ট এবং ডেটা ব্যাখ্যা: সর্বম এআই পাঠ্যের চেয়ে বেশি বুঝতে সক্ষম। নথিগুলির চার্ট, ডেটা, চিত্র এবং ভিজ্যুয়াল বিশ্লেষণ।

  • বহুভাষিক ভিজ্যুয়াল: এআই মডেল একই নথিতে একাধিক ভাষা জুড়ে ভিজ্যুয়াল উপাদানগুলি বোঝে এবং ব্যাখ্যা করে।

  • অগ্রণী কর্মক্ষমতা: সর্বম এআই গ্লোবাল ইংলিশ বেঞ্চমার্কে উৎকর্ষ সাধন করে এবং ভারতীয় ভাষার জন্য সর্বম ইন্ডিক ওসিআর বেঞ্চ প্রবর্তন করে।

  • অ্যাক্সেসযোগ্য API: এর ডকুমেন্ট ইন্টেলিজেন্স APIগুলি উত্পাদন-প্রস্তুত এবং ফেব্রুয়ারি 2026-এ পরীক্ষার জন্য ব্যবহারের জন্য বিনামূল্যে।



Source link

Leave a Reply

Your email address will not be published. Required fields are marked *