فهرست مطالب
مسیر یادگیری خود را انتخاب کنید
مقدمات و مساله Bandit
مقدمه

- اصلا RL چیه؟
- اجزای اصلی چیا هستن؟
- چند مثال برای درک بهتر.
مساله Multi-armed bandit ساده

- مساله k-armed Bandit رو توضیح بدیم؟
- پیاده سازی Incremental.
- اکسپلور یا اکسپلویت؟ کدومش؟
مساله Contextual Multi-armed Bandit

- حل مساله Bandit با استفاده از کانتکست
- LinUCB و مقایسه با UCB
- کاربردهای دنیای واقعی
مقدمات ریاضی
مفاهیم اساسی احتمال برای RL

- متغیرهای تصادفی و توزیعهای احتمال
- امید ریاضی و واریانس
- فرآیندهای تصمیمگیری مارکوف
مقدمات MDP

- مفاهیم اساسی MDP
- معادلات Bellman
- Dynamic programming
روش های Value-Based
تعریف معادله بلمن و dynamic programming

- value function و اهمیت آن
- معادلات بلمن
- Value Iteration، Q-Learning و سایر الگوریتمها
روشهای Monte Carlo

- Planning vs. Learning
- تعریف روش مونت کارلو
- نمونهبرداری تصادفی از اپیزودها