فهرست مطالب

مسیر یادگیری خود را انتخاب کنید

مقدمات و مساله Bandit

مقدمه

مقدمه

اصلا RL چیه؟
اجزای اصلی چیا هستن؟
چند مثال برای درک بهتر.

صفحه درس

مساله Multi-armed bandit ساده

Multi-armed Bandits

مساله k-armed Bandit رو توضیح بدیم؟
پیاده سازی Incremental.
اکسپلور یا اکسپلویت؟ کدومش؟

صفحه درس

مساله Contextual Multi-armed Bandit

Contextual Multi-armed Bandits

حل مساله Bandit با استفاده از کانتکست
LinUCB و مقایسه با UCB
کاربردهای دنیای واقعی

صفحه درس

مقدمات ریاضی

مفاهیم اساسی احتمال برای RL

Probability Essentials

متغیرهای تصادفی و توزیع‌های احتمال
امید ریاضی و واریانس
فرآیندهای تصمیم‌گیری مارکوف

صفحه درس

مقدمات MDP

MDP

مفاهیم اساسی MDP
معادلات Bellman
Dynamic programming

در حال توسعه

روش های Value-Based

تعریف معادله بلمن و dynamic programming

Value-Based Methods

value function و اهمیت آن
معادلات بلمن
Value Iteration، Q-Learning و سایر الگوریتم‌ها

صفحه درس

روش‌های Monte Carlo

Coming Soon

Planning vs. Learning
تعریف روش مونت کارلو
نمونه‌برداری تصادفی از اپیزودها

صفحه درس