› Large Language Models a tiny introduction and some hints

↲ 22 تیر 1404 23:05:15 توسط esemds

› مدل‌های زبانی وسیع، هوش مصنوعی
اینکه چی هستند، چرا هستند و چگونه هستند.
واکنش ما چی باشه؟

در دنیای امروز، به سادگی میشه ثابت کرد واحد پولی ارزشمند تر از اطلاعات (داده) وجود ندارد. هر کسی (سازمانی) که داده‌های بیشتری دارد انگار بانکی است که طلای بیشتری دارد.

با گسترش ضریب نفوذ وسایل دیجیتال (کامپیوتر، تلفن همراه هوشمند، وسایل هوشمند خانگی و حتی خودروی هوشمند و ...) به دست آوردن اطلاعات و داده‌های خام کاری ساده و بسیار وسیع هست. شاید بهتر است به این نکته اشاره کنیم که به هر اندازه و حتی بیشتر از آن که از داده‌های دیگران (شرکت‌ها و سازمان‌ها) استفاده می‌کنیم، به دیگران (شرکت‌ها و سازمان‌ها) داده می‌دهیم بدون آنکه مطلع باشیم.

برای آدم کنجکاوی مثل من، درک این موضوع ساده است که چرا گوگل میداند من کجا زندگی می‌کنم و پایین مرورگر کروم میگه فلان استان و فلان شهر. لابد براش آدم مهمی هستم و من را دوست دارد (یا مثل دوست دختر/پسر باید چک کند ببیند کجا هستم و دارم چکاری میکنم) 🙂

خلاصه کنم، ما هر روز چندین ترابایت داده در خدمت شرکت‌های نرم افزاری و واسطه قرار می‌دهیم بدون آنکه بدانیم سرنوشت این اطلاعات چی خواهد شد. زندگی ما خیلی باز هست. حتی آدم پرایوتی مثل من کلی داده اون بیرون دارم و امنیت و پرایوسی من با این همه محافظه کاری تقریبا صفر هست چه برسد به آدمی که اصلا چه میداند حریم شخصی و داده و آمار چیست. درد خیلی بزرگ تر این‌ها هست. بسیار بسیار بزرگ.

DATA

در عصر حاضر همه چیز داده است، قرار ملاقات دو تا عاشق، طبیعت گردی یک عاشق طبیعت، درس‌های ریاضی یک معلم، اخبار درست و غلط و بازی‌ها و چیزی‌ها دیگر. همه چیز در نهایت تبدیل به داده شده و در سرویسی از فلان شرکت ثبت و ضبط شده و بایگانی میشه. کل اینترنت توسط شرکت‌ها و سازمان‌ها غول فناوری بک‌آپ گرفته شده و همه داده‌های آنلاین و حتی آفلاین توسط این شرکت‌ها نگه داری می‌شوند. شرکتی مثل گوگل و فیسبوک در حقیقت انبار داده هستند در پوشش یه شرکت نرم افزاری. کسی با این حجم از جمع آوری داده‌ها مشکلی ندارد؟

LLM (Large Language Models)

برسیم به موضوع اصلی، مدل‌های زبانی وسیع و گسترده که در سالهای اخیر سرو صدای زیادی کرده‌اند. از چت جی‌پی‌تی (ChatGPT) معروف گرفته تا دیپ‌سیک (DeepSeek). به طور خلاصه این ها نرم افزارهای آموزش دیده هستند که مثل انسانها فکر کنند و مثل انسانها تصمیم گرفته و جواب دهند. در حقیقت هوش مصنوعی یا پردازنده متن و تصویر هستند که گاهی خلاق و حتی آفریننده هم هستند، درست کردن انشا از چند کلمه یا مثلا درست کردن یه تصویر از چند کلمه و یا جمله کوتاه در واقع نمودی از خلاقیت این مدل ها هستند. بعضی از این مدل های هوش مصنوعی در زمینه های خاصی مانند برنامه نویسی یا حل مسائل ریاضی بسیار پیشرفته هستند و در واقع خیلی قدرتمندتر و کارآمدتر از انسانها خودشان را نشان می‌دهند. این مدل با پارامترهایی در حد چند میلیارد و حتی بیشتر همزمان میتوانند روی هر کلمه ورودی چندین هزار ترکیب معنا دار بسازند و یک جواب مفیدی تولید کنند که شاید ذهن انسان آن کشش را نداشته باشد.

برای درست کردن این مدل‌ها، به سخت افزاری بسیار قدرتمند در حد برای مثال ۱۰۰ هزار پردازنده انویدیای آخرین سیستم لازم هست ولی اینجای قضیه چندان مهم نیست، بخش مهم قضیه داده‌های ورودی هست که برای آموزش این مدل ها استفاده می‌شود، داده‌هایی که از همه جا ثبت و ضبط شده، از وبکم مدیر مدرسه فلان دبستان گرفته تا ویدیوکنفرانس فلان استاد و صبحت‌های مرحوم شادروان پدربزرگ خاندان. این مدل‌ها کل وب سورفیس (surface web) و حتی شاید دارک وب و بیشتر از آن به علاوه همه داده‌های شبکه‌های اجتماعی و هزاران نوع داده دیگر را اسکن کرده و در حافظه خود دارند. (بسی جای تامل دارد)

کاربرد مدل‌ها

دقیقا نمیشود گفت همه‌ی مدل های زبانی بزرگ یک هدف دارند ولی اشتراک‌های زیادی دارند و بخش بسیار زیادی از اینها برای تسهیل در کارها خلق شده‌اند و ممکن است تعداد کمی برای مقاصد دیگر درست شده باشند. برای help Desk ها و پشتیبانی سرویس‌ها، برای معرفی محصول، برای اتومیشن و خودکارسازی وظیفه‌ها، برای آموزش و استفاده در زمینه‌های برنامه نویسی و ریاضی، برای استفاده به عنوان چت بات و برای سرگرمی و برای اهداف عمومی دیگر ساخته می‌شوند. بعضی مدل‌های پیشرفته و خاص منظوره حتی پولی هستند که میشه گفت نوعی کسب درآمد بالایی هم دارد.

شاید مهمترین کاربرد هوش مصنوعی مربوط به صنعت فروش و سرگرمی باشد که همیشه درگیر آن هستیم، مثلا شرکت متا با ترفند‌های مهندسی و روانشناسی و هوش مصنوعی خودش ما را در اینستاگرام زنده زنده دفن میکند با این همه فیلم و عکس و داده و غیره.

امروزه بیشتر این مدل‌ها رایگان در اینترنت پابلیک دومین هستند و در ادامه نحوه دانلود و استفاده از آنرا هم نشان میدهم ولی مدل‌های پیشرفته حجم زیادی دارند و سیستم قدرتمندی لازم دارند که به طور شخصی اجرا کنیم، در کل ایده جالبی نیست یک مدل بزرگ را روی سیستم لوکال داشته باشیم.

بالاخره جای منو می‌گیره یا نه؟

نه. نه. چرا. چرا

دقیقا نمیشه گفت بله یا خیر، به نظرم هوش مصنوعی در نگاه کلی بسیار مفید و کمک کننده هست تا نگران کننده ولی داده‌های گم شده ما، نگران کننده هستند. بیشتر شغل‌ها در سایه هوش مصنوعی پیشرفت میکنند و بهینه‌تر میشوند حتی ممکن است شغل‌هایی باشند که فقط هوش مصنوعی آنها را انجام دهد و مختص هوش مصنوعی باشد ولی حتما کارهایی هستند که به یک انسان نیاز هست که مدیریت هوش مصنوعی را بر عهده داشته باشد. در کل شاید هوش مصنوعی خیلی زود فراگیر بشود ولی به این زودی‌ها جای انسانها را درکارهای زیادی نمی‌تواند پر کند.

چند مدل معروف

هرکدام از مدل‌های معرفی شده دارای نسخه‌های با پارامتر کم و قابلیت‌های کم تا پارامتر زیاد و قابلیت‌های زیاد هستند

ChatPT -> OpenAI

شاید اوپن ای آی مهمترین بازیگر این صنعت هست، سم آلتمن آدم عجیبی هست، مدل های هوش مصنوعی در سایه مدیریت این مدیر جوان خیلی زود فراگیر شدند. هوش مصنوعی ساخته شده توسط اوپن ای آی فقط برای چت و سرگرمی نیست و نسخه‌های مختلفی دارد که هرکدام کاربرد خودش را دارد. شاید بهترین نسخه‌اش در حال حاضر GPT 4o باشد که مدلی چند منظوره هست، از چت کردن گرفته تا حل معادلات ریاضی.

deepSeek

ساخته کشور چین هست حقیقتا مدلی سریع و قدرتمند در حل مسائل ریاضی و تفکر منطقی هست. برای برنامه نویسی هم بسیار مفید است بخاطر نوع معماری تفکر منطقی. دارای نسخه‌های مختلف هست و بهترین نسخه آن DeekSeek R1 هست.

Claude -> Anthropic

مدلی است از آنتروپیک که بیشتر برای حل مسئله و ریاضی کاربرد دارد متأسفانه رایگان نیست و پولی هست برخلاف مدل‌های قبلی. ورژن sonet برای حل مسائل مناسبتر هست. میشه گفت بهترین مدل Claude 3.5 sonet باشد.

Gemma -> Google

گوگل یکی از پیشتازان حوزه هوش مصنوعی هست و مدل‌های زیادی معرفی کرده است و دستیار شخصی نصب شده در سیستم عامل اندروید (Gemni) یکی از معتبرترین مدل‌های هوش مصنوعی هست. مدل های گوگل اکثرا چند زبانی هستند حتی ممکن است همه زبانهای زنده دنیا را هم درک و تحلیل و تفسیر کنند ولی مذل‌های دیگر این قابلیت را ندارند. یکی از بهترین نسخه‌های رایگان مدل‌های گوگل Gemma 3n هست که نسخه های مختلفی دارد ولی در کل نسخه 4B آن ارزش امتحان کردن دارد. در آخر اینکه علاوه بر متن قابلیت کار با عکس هم دارد.

Llama -> Meta Ai

این مدل زبانی مال متا هست همونی که نصف داده های دنیا دست آنهاست. نسخه رایگانش کم حجم و قابل دانلود هست ولی مسلما نسخه اصلی هم منبع بسته است و هم پارامتری در حدود چند هزار میلیارد دارد.

Grok -> XAi

این مدل مال شرکت X هست همون توئیتر سابق که ایلان ماسک خرید و رید توش. بنا به بنچمارک در تشخیص ترند ها و رفتار و تعامل انسانی از بقیه مدل‌های زبای بهتر است. اینم نسخه رایگان ندارد ولی در خود برنامه تويیتر میشه ازش استفاده کرد.

Qwen -> AliBaba

مال شرکت علی بابا هست و میشه گفت مدلی سریع و عمومی هست. نسخه رایگان آن در اینترنت موجود هست برای دانلود و استفاده و من به شخصه از این مدل هم به صورت لوکال استفاده میکنم و به نظرم خوب هست و پاسخ‌هایی مناسبی ارائه می دهد.

بقیه مدل‌ها برای خودتون. برید جست و جو کنید و چیزهای جدیدی کشف کنید.

نحوه نصب و استفاده از LLM

برای استفاده از LLM ها در سیستم خودتان، به یک برنامه نیاز دارید و یه یک مدل. برای استفاده از این مدل‌ها برنامه‌های Ollama و همچنین LM studio هستند که هر دو خوب و سریع هستند و ‌Ollama در ترمینال اجرا میشه ولی LM Studio محیط گرافیکی داره که ساده‌تر هست.

مراحل نصب و اجرای Deepseek R1 در Ollama.

مرحله اول: رفتن به سایت Ollama و دانلود فایل نصبی

مرحله دوم: اکسترکت کردن فایل و رفتن به دایرکتوری bin

مرحله سوم: اجرای ollama serve

با اینکار سرور مدل زبانی اجرا میشه و فقط باید یک مدلی دانلود کنید و اجرا کنید.

مرحله چهار: در ترمینال دیگه، ollama run deepseek-r1

با دستور بالا deepseek اول دانلود میشه و بعد هم اجرا میشه و آماده کامند‌های شما میشه.

Ollama

برای نصب LM Studio مرحله خاصی نیاز نیست چونکه خیلی ساده هست کافیه از سایت خودش نرم افزار نصبی را دانلود کرده و نصب کنید و بعدش برنامه رو باز کره و یکی از مدل‌ها را نصب کنید من مدل qwen 3 رو نصب کردم و راحت اجرا میشه تو محیط لپ تاپ.

LM Studio

حتی میشه روی تلفن همراه هم نصب کرد. با برنامه‌های Llama chat و یا Edge Gallery میتونید روی تلفن همراه هم llm دلخواه نصب کنید ولی باید سخت افزار گوشی شما مناسب باشه تا هنگ نکند. خلاصه کنم تجربه نصب لوکال LLM خوب هست و حتما امتحانش کنید. 🙃

Large Language Model

ایشون هم سازنده اولین مدل هوشمند زبانی هستند. تاریخ به گذشتگان احترام میگذارد. ما تاریخ را گم نمی‌کنیم. 💯

آخرین برزورسانی: 4 مهر 1404 01:25:24

#ai #llm #data

𝕧iew139 ℂomment0

Insert Comments :)

تعداد نظرهای ثبت شده: 0

ورود \ ثبت نام