Deepsic ، Startup چینی ، نسخه بهبود یافته مدل زبان Deepsek-V3 را با افتتاح MIT منتشر کرد.
نسخه جدید در سکوت منتشر شد و Deepsic بیانیه ای در مورد رسانه ها ارائه نداد. علاوه بر این ، پرونده README مدل جدید در حال حاضر خالی است (این پرونده معمولاً حاوی کدها و توضیحات مربوط به مدل است).
Depsic V3 ، مدل بزرگ زبان کد باز ، زمستان گذشته در دسترس بود و قلب ضرب و شتم Dipsya R1 یک ضرب و شتم است (R1 استدلالی است که غوطه ور می شود و یک لبه گسترده ایجاد می کند).
Dip -sick V3 یک روش کاملاً پیش از آن است که به طور خاص برای کارهای استدلال بهینه نشده است ، اما می تواند مشکلات ریاضی را حل کند و یک کد بنویسد.
تا به امروز ، مدل V3 تحت مجوز شخصی Open -Air موجود بود. با این حال ، با تغییرات جدید ، اکنون مدل قدرتمند Dipsy در MIT ارائه شده است. به این ترتیب ، توسعه دهندگان می توانند بدون هیچ گونه محدودیتی از این مدل از هوش مصنوعی در پروژه های تجاری استفاده کنند.
کارشناسان می گویند که مدل جدید DIPSY نسبت به مدل قبلی قدرتمندتر شده است و شامل منابع سخت افزاری کمتری است.
بیشتر مدلهای بزرگ و پیشرفته زبان پتانسیل اصلی خود را تنها با کارتهای گرافیکی Datacenter نشان می دهند. اون هنونیک دانشمند تحقیقاتی Apple Car می گوید که نسخه جدید Deepsic V3 در Mac Studio کار کرده است و این مدل توانسته است تقریباً 5 نشانگر خروجی در ثانیه را ارائه دهد ، که به نظر می رسد بسیار قابل توجه است.
استودیوهای MAC مورد استفاده قوی ترین نمونه رایانه بوده و در حال حاضر حدود 1.5 دلار قیمت دارند. دانشمند اپل می گوید ، کوانتومی چهار ضلعی بود این تکنیک که برای بهینه سازی مدل های بزرگ زبان استفاده می شود ، میزان حافظه را کاهش داده و کند شدن را کاهش می دهد ، اما هزینه استفاده از آن کاهش دقت خروجی است.
مقالات مرتبط
بدیهی است که نسخه جدید Depsik V3 در رمزگذاری از مدل قبلی عملکرد بهتری دارد. طبق یک آزمایش غیر رسمی و مستقل ، Deepsic V3 جدید 2 ٪ در این شاخص به دست آورد که چند درصد بهتر از نسخه قبلی است. البته ، Deepsic V3 جدید ضعیف تر از استدلال QWEN-32B به نظر می رسد. V3 ، علی رغم تمام پیشرفت های خود ، هنوز پشت پرچمدار R1 است.
مدل زبان DIPSY V3 از 5 میلیارد پارامتر تشکیل شده است ، اما در پاسخ به سؤالات فقط از 2 میلیارد نفر از آنها استفاده می کند. این ساختار غیر منتظره به DPSC V3 اجازه می دهد تا عملکرد مناسب با منابع سخت افزاری کمتری نسبت به سایر مدل های زبان ارائه دهد (مدل های دیگر معمولاً تمام پارامترهای خود را فعال می کنند).
Deepsic می گوید V3 بهتر از R1 است و هزینه های نهایی سازمان ها را کاهش می دهد. نسخه اصلی Dip Sick V3 بر اساس داده های 1.5 تریلیون نشانگر در یک پایگاه داده آموزش داده می شود.