فهرست مطالب

مسیر یادگیری خود را انتخاب کنید

مقدمات و مساله Bandit

مقدمه
مقدمه
  • اصلا RL چیه؟
  • اجزای اصلی چیا هستن؟
  • چند مثال برای درک بهتر.
مساله Multi-armed bandit ساده
Multi-armed Bandits
  • مساله k-armed Bandit رو توضیح بدیم؟
  • پیاده سازی Incremental.
  • اکسپلور یا اکسپلویت؟ کدومش؟
مساله Contextual Multi-armed Bandit
Contextual Multi-armed Bandits
  • حل مساله Bandit با استفاده از کانتکست
  • LinUCB و مقایسه با UCB
  • کاربردهای دنیای واقعی

مقدمات ریاضی

مفاهیم اساسی احتمال برای RL
Probability Essentials
  • متغیرهای تصادفی و توزیع‌های احتمال
  • امید ریاضی و واریانس
  • فرآیندهای تصمیم‌گیری مارکوف
مقدمات MDP
MDP
  • مفاهیم اساسی MDP
  • معادلات Bellman
  • Dynamic programming

روش های Value-Based

تعریف معادله بلمن و dynamic programming
Value-Based Methods
  • value function و اهمیت آن
  • معادلات بلمن
  • Value Iteration، Q-Learning و سایر الگوریتم‌ها
روش‌های Monte Carlo
Coming Soon
  • Planning vs. Learning
  • تعریف روش مونت کارلو
  • نمونه‌برداری تصادفی از اپیزودها