امروز 14 آبان 1404 - ساعت به وقت ایران 06:14:45
LINK: wildbits.net/!llm101
› مدلهای زبانی وسیع، هوش مصنوعی
اینکه چی هستند، چرا هستند و چگونه هستند.
واکنش ما چی باشه؟
در دنیای امروز، به سادگی میشه ثابت کرد واحد پولی ارزشمند تر از اطلاعات (داده) وجود ندارد. هر کسی (سازمانی) که دادههای بیشتری دارد انگار بانکی است که طلای بیشتری دارد.
با گسترش ضریب نفوذ وسایل دیجیتال (کامپیوتر، تلفن همراه هوشمند، وسایل هوشمند خانگی و حتی خودروی هوشمند و ...) به دست آوردن اطلاعات و دادههای خام کاری ساده و بسیار وسیع هست. شاید بهتر است به این نکته اشاره کنیم که به هر اندازه و حتی بیشتر از آن که از دادههای دیگران (شرکتها و سازمانها) استفاده میکنیم، به دیگران (شرکتها و سازمانها) داده میدهیم بدون آنکه مطلع باشیم.
برای آدم کنجکاوی مثل من، درک این موضوع ساده است که چرا گوگل میداند من کجا زندگی میکنم و پایین مرورگر کروم میگه فلان استان و فلان شهر. لابد براش آدم مهمی هستم و من را دوست دارد (یا مثل دوست دختر/پسر باید چک کند ببیند کجا هستم و دارم چکاری میکنم) 🙂
خلاصه کنم، ما هر روز چندین ترابایت داده در خدمت شرکتهای نرم افزاری و واسطه قرار میدهیم بدون آنکه بدانیم سرنوشت این اطلاعات چی خواهد شد. زندگی ما خیلی باز هست. حتی آدم پرایوتی مثل من کلی داده اون بیرون دارم و امنیت و پرایوسی من با این همه محافظه کاری تقریبا صفر هست چه برسد به آدمی که اصلا چه میداند حریم شخصی و داده و آمار چیست. درد خیلی بزرگ تر اینها هست. بسیار بسیار بزرگ.
در عصر حاضر همه چیز داده است، قرار ملاقات دو تا عاشق، طبیعت گردی یک عاشق طبیعت، درسهای ریاضی یک معلم، اخبار درست و غلط و بازیها و چیزیها دیگر. همه چیز در نهایت تبدیل به داده شده و در سرویسی از فلان شرکت ثبت و ضبط شده و بایگانی میشه. کل اینترنت توسط شرکتها و سازمانها غول فناوری بکآپ گرفته شده و همه دادههای آنلاین و حتی آفلاین توسط این شرکتها نگه داری میشوند. شرکتی مثل گوگل و فیسبوک در حقیقت انبار داده هستند در پوشش یه شرکت نرم افزاری. کسی با این حجم از جمع آوری دادهها مشکلی ندارد؟
برسیم به موضوع اصلی، مدلهای زبانی وسیع و گسترده که در سالهای اخیر سرو صدای زیادی کردهاند. از چت جیپیتی (ChatGPT) معروف گرفته تا دیپسیک (DeepSeek). به طور خلاصه این ها نرم افزارهای آموزش دیده هستند که مثل انسانها فکر کنند و مثل انسانها تصمیم گرفته و جواب دهند. در حقیقت هوش مصنوعی یا پردازنده متن و تصویر هستند که گاهی خلاق و حتی آفریننده هم هستند، درست کردن انشا از چند کلمه یا مثلا درست کردن یه تصویر از چند کلمه و یا جمله کوتاه در واقع نمودی از خلاقیت این مدل ها هستند. بعضی از این مدل های هوش مصنوعی در زمینه های خاصی مانند برنامه نویسی یا حل مسائل ریاضی بسیار پیشرفته هستند و در واقع خیلی قدرتمندتر و کارآمدتر از انسانها خودشان را نشان میدهند. این مدل با پارامترهایی در حد چند میلیارد و حتی بیشتر همزمان میتوانند روی هر کلمه ورودی چندین هزار ترکیب معنا دار بسازند و یک جواب مفیدی تولید کنند که شاید ذهن انسان آن کشش را نداشته باشد.
برای درست کردن این مدلها، به سخت افزاری بسیار قدرتمند در حد برای مثال ۱۰۰ هزار پردازنده انویدیای آخرین سیستم لازم هست ولی اینجای قضیه چندان مهم نیست، بخش مهم قضیه دادههای ورودی هست که برای آموزش این مدل ها استفاده میشود، دادههایی که از همه جا ثبت و ضبط شده، از وبکم مدیر مدرسه فلان دبستان گرفته تا ویدیوکنفرانس فلان استاد و صبحتهای مرحوم شادروان پدربزرگ خاندان. این مدلها کل وب سورفیس (surface web) و حتی شاید دارک وب و بیشتر از آن به علاوه همه دادههای شبکههای اجتماعی و هزاران نوع داده دیگر را اسکن کرده و در حافظه خود دارند. (بسی جای تامل دارد)
دقیقا نمیشود گفت همهی مدل های زبانی بزرگ یک هدف دارند ولی اشتراکهای زیادی دارند و بخش بسیار زیادی از اینها برای تسهیل در کارها خلق شدهاند و ممکن است تعداد کمی برای مقاصد دیگر درست شده باشند. برای help Desk ها و پشتیبانی سرویسها، برای معرفی محصول، برای اتومیشن و خودکارسازی وظیفهها، برای آموزش و استفاده در زمینههای برنامه نویسی و ریاضی، برای استفاده به عنوان چت بات و برای سرگرمی و برای اهداف عمومی دیگر ساخته میشوند. بعضی مدلهای پیشرفته و خاص منظوره حتی پولی هستند که میشه گفت نوعی کسب درآمد بالایی هم دارد.
شاید مهمترین کاربرد هوش مصنوعی مربوط به صنعت فروش و سرگرمی باشد که همیشه درگیر آن هستیم، مثلا شرکت متا با ترفندهای مهندسی و روانشناسی و هوش مصنوعی خودش ما را در اینستاگرام زنده زنده دفن میکند با این همه فیلم و عکس و داده و غیره.
امروزه بیشتر این مدلها رایگان در اینترنت پابلیک دومین هستند و در ادامه نحوه دانلود و استفاده از آنرا هم نشان میدهم ولی مدلهای پیشرفته حجم زیادی دارند و سیستم قدرتمندی لازم دارند که به طور شخصی اجرا کنیم، در کل ایده جالبی نیست یک مدل بزرگ را روی سیستم لوکال داشته باشیم.
نه. نه. چرا. چرا
دقیقا نمیشه گفت بله یا خیر، به نظرم هوش مصنوعی در نگاه کلی بسیار مفید و کمک کننده هست تا نگران کننده ولی دادههای گم شده ما، نگران کننده هستند. بیشتر شغلها در سایه هوش مصنوعی پیشرفت میکنند و بهینهتر میشوند حتی ممکن است شغلهایی باشند که فقط هوش مصنوعی آنها را انجام دهد و مختص هوش مصنوعی باشد ولی حتما کارهایی هستند که به یک انسان نیاز هست که مدیریت هوش مصنوعی را بر عهده داشته باشد. در کل شاید هوش مصنوعی خیلی زود فراگیر بشود ولی به این زودیها جای انسانها را درکارهای زیادی نمیتواند پر کند.
هرکدام از مدلهای معرفی شده دارای نسخههای با پارامتر کم و قابلیتهای کم تا پارامتر زیاد و قابلیتهای زیاد هستند
ChatPT -> OpenAI
شاید اوپن ای آی مهمترین بازیگر این صنعت هست، سم آلتمن آدم عجیبی هست، مدل های هوش مصنوعی در سایه مدیریت این مدیر جوان خیلی زود فراگیر شدند. هوش مصنوعی ساخته شده توسط اوپن ای آی فقط برای چت و سرگرمی نیست و نسخههای مختلفی دارد که هرکدام کاربرد خودش را دارد. شاید بهترین نسخهاش در حال حاضر GPT 4o باشد که مدلی چند منظوره هست، از چت کردن گرفته تا حل معادلات ریاضی.
deepSeek
ساخته کشور چین هست حقیقتا مدلی سریع و قدرتمند در حل مسائل ریاضی و تفکر منطقی هست. برای برنامه نویسی هم بسیار مفید است بخاطر نوع معماری تفکر منطقی. دارای نسخههای مختلف هست و بهترین نسخه آن DeekSeek R1 هست.
Claude -> Anthropic
مدلی است از آنتروپیک که بیشتر برای حل مسئله و ریاضی کاربرد دارد متأسفانه رایگان نیست و پولی هست برخلاف مدلهای قبلی. ورژن sonet برای حل مسائل مناسبتر هست. میشه گفت بهترین مدل Claude 3.5 sonet باشد.
Gemma -> Google
گوگل یکی از پیشتازان حوزه هوش مصنوعی هست و مدلهای زیادی معرفی کرده است و دستیار شخصی نصب شده در سیستم عامل اندروید (Gemni) یکی از معتبرترین مدلهای هوش مصنوعی هست. مدل های گوگل اکثرا چند زبانی هستند حتی ممکن است همه زبانهای زنده دنیا را هم درک و تحلیل و تفسیر کنند ولی مذلهای دیگر این قابلیت را ندارند. یکی از بهترین نسخههای رایگان مدلهای گوگل Gemma 3n هست که نسخه های مختلفی دارد ولی در کل نسخه 4B آن ارزش امتحان کردن دارد. در آخر اینکه علاوه بر متن قابلیت کار با عکس هم دارد.
Llama -> Meta Ai
این مدل زبانی مال متا هست همونی که نصف داده های دنیا دست آنهاست. نسخه رایگانش کم حجم و قابل دانلود هست ولی مسلما نسخه اصلی هم منبع بسته است و هم پارامتری در حدود چند هزار میلیارد دارد.
Grok -> XAi
این مدل مال شرکت X هست همون توئیتر سابق که ایلان ماسک خرید و رید توش. بنا به بنچمارک در تشخیص ترند ها و رفتار و تعامل انسانی از بقیه مدلهای زبای بهتر است. اینم نسخه رایگان ندارد ولی در خود برنامه تويیتر میشه ازش استفاده کرد.
Qwen -> AliBaba
مال شرکت علی بابا هست و میشه گفت مدلی سریع و عمومی هست. نسخه رایگان آن در اینترنت موجود هست برای دانلود و استفاده و من به شخصه از این مدل هم به صورت لوکال استفاده میکنم و به نظرم خوب هست و پاسخهایی مناسبی ارائه می دهد.
بقیه مدلها برای خودتون. برید جست و جو کنید و چیزهای جدیدی کشف کنید.
برای استفاده از LLM ها در سیستم خودتان، به یک برنامه نیاز دارید و یه یک مدل. برای استفاده از این مدلها برنامههای Ollama و همچنین LM studio هستند که هر دو خوب و سریع هستند و Ollama در ترمینال اجرا میشه ولی LM Studio محیط گرافیکی داره که سادهتر هست.
مرحله اول: رفتن به سایت Ollama و دانلود فایل نصبی
مرحله دوم: اکسترکت کردن فایل و رفتن به دایرکتوری bin
مرحله سوم: اجرای ollama serve
با اینکار سرور مدل زبانی اجرا میشه و فقط باید یک مدلی دانلود کنید و اجرا کنید.
مرحله چهار: در ترمینال دیگه، ollama run deepseek-r1
با دستور بالا deepseek اول دانلود میشه و بعد هم اجرا میشه و آماده کامندهای شما میشه.

برای نصب LM Studio مرحله خاصی نیاز نیست چونکه خیلی ساده هست کافیه از سایت خودش نرم افزار نصبی را دانلود کرده و نصب کنید و بعدش برنامه رو باز کره و یکی از مدلها را نصب کنید من مدل qwen 3 رو نصب کردم و راحت اجرا میشه تو محیط لپ تاپ.

حتی میشه روی تلفن همراه هم نصب کرد. با برنامههای Llama chat و یا Edge Gallery میتونید روی تلفن همراه هم llm دلخواه نصب کنید ولی باید سخت افزار گوشی شما مناسب باشه تا هنگ نکند. خلاصه کنم تجربه نصب لوکال LLM خوب هست و حتما امتحانش کنید. 🙃

ایشون هم سازنده اولین مدل هوشمند زبانی هستند. تاریخ به گذشتگان احترام میگذارد. ما تاریخ را گم نمیکنیم. 💯
آخرین برزورسانی: 4 مهر 1404 01:25:24
تعداد نظرهای ثبت شده: 0
برای کامنت گذاشتن باید وارد شوید (اگر حساب ندارید ثبت نام کنید.)
ورود \ ثبت نام