فهرست مطالب

مسیر یادگیری خود را انتخاب کنید

مقدمات و مساله Bandit

مقدمه
مقدمه
  • اصلا RL چیه؟
  • اجزای اصلی چیا هستن؟
  • چند مثال برای درک بهتر.
مساله Multi-armed bandit ساده
Multi-armed Bandits
  • مساله k-armed Bandit رو توضیح بدیم؟
  • پیاده سازی Incremental.
  • اکسپلور یا اکسپلویت؟ کدومش؟
مساله Contextual Multi-armed Bandit
Contextual Multi-armed Bandits
  • حل مساله Bandit با استفاده از کانتکست
  • LinUCB و مقایسه با UCB
  • کاربردهای دنیای واقعی

مقدمات ریاضی

مفاهیم اساسی احتمال برای RL
Probability Essentials
  • متغیرهای تصادفی و توزیع‌های احتمال
  • امید ریاضی و واریانس
  • فرآیندهای تصمیم‌گیری مارکوف
مقدمات MDP
MDP
  • مفاهیم اساسی MDP
  • معادلات Bellman
  • Dynamic programming