10 کتابخانه پایتون کمتر شناخته شده برای یادگیری ماشین
۱۰ کتابخانه پایتون کمتر شناخته شده برای یادگیری ماشین
ده ابزار برای ساده کردن فرایند یادگیری ماشینی که ممکن است در مورد آن اطلاعاتی نداشته باشید. در ادامه با وبلاگ هاستینجا همراه باشید تا این ده ابزار را با هم بررسی کنیم.
پایتون این روزها با بسته های اصلی فوق العاده محبوب مانند Scikit-Learn ، Tensorflow و Keras بر چشم انداز یادگیری ماشین حاکم است. یک جامعه فوق العاده فعال از توسعه دهندگان مشغول به کار در کتابخانه های کمتر شناخته شده دیگر هستند که نه تنها برای توسعه مدل بلکه برای بسیاری از فرآیندهای پیرامون این کار ، برنامه هایی را ارائه می دهند. از جمله مواردی مانند پردازش داده ها ، مهندسی ویژگی ها و تفسیر مدل.
در این مقاله ، می خواهم ده کتابخانه مورد علاقه کمتر شناخته شده پایتون را به اشتراک بگذارم که باعث می شود زندگی ماشین شما بسیار ساده تر شود.
****
۱۰ کتابخانه پایتون کمتر شناخته شده برای یادگیری ماشین
****
۱٫ Pandas-ml
این کتابخانه پاندا ، Scikit-Learn ، XGBoost و قابلیت Matplotlib را با هم ترکیب می کند تا آماده سازی داده ها و به دست آوردن مدل را ساده تر کند.
از نظر پردازش داده ها ، pandas-ml از قالب داده ای به نام ModelFrame استفاده می کند که شامل ابرداده شامل اطلاعات مربوط به ویژگی ها و هدف است به گونه ای که آمار و توابع مدل راحت تر قابل استفاده است.
به عنوان ModelFrame تمام ویژگی های pandas را به ارث می برد. تمام روش های پاندا را می توان به طور مستقیم در داده های یادگیری دستگاه خود استفاده کرد.
۲٫ Category encoders
کتابخانه رمزگذار رده ، دستیابی به متغیرهای طبقه بندی در یادگیری ماشین را ساده می کند. این می تواند به تنهایی برای تغییر متغیرها مورد استفاده قرار گیرد اما همچنین با Scikit-Learn یکپارچه شده است و می تواند در خطوط لوله Sckit-Learn استفاده شود.
اگرچه Scikit-Learn دارای برخی کارکردها برای تبدیل ویژگیهای طبقه بندی شده به عددی مانند رمزگذارهای یک داغ و رمزگذارهای معمولی است ، اما رمزگذارهای دسته بندی روشهای بسیار گسترده تری برای دستیابی به این نوع داده ها ارائه می دهند. به طور خاص ، این شامل تعدادی از روش ها برای دستیابی به ویژگی های کاردینال بالا (ویژگی هایی با تعداد زیادی از ارزش های منحصر به فرد) ، مانند وزن ترانسفورماتور شواهد است.
۳٫ Yellowbrick
Yellowbrick یک کتابخانه تجسم است که به طور خاص برای مدلهای یادگیری ماشین توسعه یافته Scikit-Learn طراحی شده است. این کتابخانه طیف گسترده ای از تصاویر ساده برای استفاده را ارائه می دهد که به جنبه های مختلف فرایند یادگیری ماشین از جمله انتخاب مدل ، استخراج ویژگی ها و ارزیابی و تفسیر مدل کمک می کند.
۴٫ Shap
کتابخانه Shap از یک تکنیک مبتنی بر تئوری بازی برای ارائه توضیحات در مورد خروجی هر مدل یادگیری ماشین استفاده می کند. این قابلیت تفسیر مدلهای توسعه یافته با استفاده از کتابخانه های مشهور یادگیری ماشین پایتون از جمله Scikit-Learn ، XGBoost ، Pyspark ، Tensorflow و Keras را دارد.
۵٫ Feature-engine
موتور ویژه یک کتابخانه پایتون منبع باز است که به گونه ای طراحی شده است که طیف گسترده ای از تکنیک های مهندسی ویژگی را به راحتی در دسترس قرار دهد. مهندسی ویژگی به طور کلی مراحل زیر را در بر می گیرد:
- مقادیر گمشده را وارد کنید
- حذف بی نظیر
- کدگذاری متغیرهای طبقه بندی شده
- تفسیر و عادی سازی
- مهندسی ویژگی های جدید
کتابخانه ویژگی های موتور شامل توابع و روش هایی برای انجام بیشتر این کارها است. کد از عملکرد Scikit-Learn با روش های مناسب () و تبدیل () تبعیت می کند و می تواند در خطوط لوله آموزش Scikit مورد استفاده قرار گیرد.
۶٫ Feature tools
ابزارهای ویژه یک چارچوب پایتون برای مهندسی ویژگی های خودکار است. این کتابخانه از یک مجموعه داده واحد یا مجموعه ای از مجموعه داده های رابطه ای استفاده می کند و Deep Feature Synthesis (DFS) را اجرا می کند تا یک ماتریس از هر دو ویژگی موجود و تازه تولید شده را ایجاد کند. این ابزار می تواند زمان قابل توجهی را در طی فرآیند مهندسی ویژگی صرفه جویی کند.
۷٫ Dabl
بسته Dabl با هدف اتوماسیون برخی از کارهای متداول یادگیری ماشین تکراری مانند تمیز کردن داده ها و تجزیه و تحلیل اساسی است. دابل از یک فلسفه “بهترین حدس” برای اعمال فرایندهای تمیز کردن داده استفاده می کند اما به کاربر اجازه می دهد تا در صورت لزوم ، روند کار را بازرسی و اصلاح کند.
۸٫ Suprise
این کتابخانه برای اجرای ساده موتورهای توصیف صریح در پایتون طراحی شده است. این رابط کاربری کاملاً شبیه scikit-Learn است ، بنابراین اگر از قبل در آن کتابخانه کاربر هستید ، بسیار شهودی است. این طیف گسترده ای از الگوریتم های داخلی دارد که می توانید داده های خود را ارزیابی کنید اما می توانید خود را نیز بسازید. همچنین ابزارهایی برای اعتبارسنجی متقابل و بهینه سازی هایپارامتر وجود دارد.
۹٫ Pycaret
Pycaret طراحی شده است که یک کتابخانه یادگیری ماشین با کد بسیار پایین برای پایتون باشد. این هر دو دانشمند داده است که می خواهند سریعتر مدل بسازند و همچنین دانشمندان غیر داده ای که علاقه مند به ساختن مدل های ساده هستند.
کتابخانه شامل نمونه کدهای کلی برای کل فرایند یادگیری ماشین از جمله پیش پردازش ، آموزش مدل ، ارزیابی و تنظیم است. انواع تخمین گر رایج شامل: رگرسیون لجستیک ، درخت تصمیم گیری ، طبقه بندی تقویت کننده شیب و تقویت گربه است. این کتابخانه همچنین حاوی یک راه حل استقرار بسیار ساده است که مدل نهایی را روی یک سطل AWS S3 مستقر می کند. این مدل همیشه می تواند به عنوان یک فایل ترشی برای راه حل های استقرار جایگزین ذخیره شود.
۱۰٫ Prophet
prophet یک کتابخانه پایتون است که به منظور ساده سازی پیش بینی سری های زمانی سری که توسط Facebook ساخته شده است ، بسیار ساده است. این کتابخانه از یک رابط مشابه Scikit-Learn استفاده می کند و روند پیش بینی سریال زمانی را بسیار ساده می کند. برخی از ویژگی های ترسیم مفید برای تجسم و ارزیابی مدل ها وجود دارد. همچنین مدل سازی در فصلی و جلوه های تعطیلات از جمله دوره های تاریخ دلخواه خود بسیار ساده است.
*****
اکوسیستم Python دارای جامعه ای بسیار فعال است که در حال ایجاد کتابخانه هستند تا یادگیری ماشین ساده تر و در دسترس تر شود. این مقاله گزیده ای از ده کتابخانه کمتر شناخته شده است که من اغلب از آنها استفاده می کنم اما برای یک لیست جامع تر ، fantastic resource است.