1. 【论文阅读】node2vec

    node2vec的论文地址:node2vec: Scalable Feature Learning for Networks

    2019/05/06 GNN

  2. 【论文阅读】DQN

    DQN的论文地址:Playing Atari with Deep Reinforcement Learning

    2019/04/09 RL RL_Paper

  3. Q-learning 和 Double Q-learning

    Q-learning是一种无模型的、异步策略、时间差分(TD)控制方法,关于无模型、异步策略、时间差分、预测和控制等概念,在先前的强化学习笔记中有详细描述。Double Q-learning是针对Q-learning的缺点提出的一种改进方法。

    2019/04/01 RL RL_Feeling

  4. 【强化学习笔记5】无模型控制

    上一章中我们讲到了无模型的预测(Model-Free Prediction),这一讲我们讲无模型的控制(Model-Free Control)。无模型的预测讲的是我们在不知道MDP环境信息的条件下如何评估一个策略,无模型的控制讲的是我们在不知道MDP环境信息的条件下如何优化一个策略。

    2019/02/28 RL RL_Notes

  5. 【强化学习笔记4】无模型预测

    上一张我们学习了如何应用动态规划解决强化学习问题,但是这是在MDP所有信息已知的情况下,如果不知道环境信息,我们该如何解决预测和控制问题呢?这章我们先来解决无环境信息的预测问题,称之为Model-Free Prediction。

    2019/02/27 RL RL_Notes

  6. 【强化学习笔记3】MDP的动态规划

    DP(Dynamic Programming,动态规划)也是强化学习的重要基础,因为MDP的天然属性,使得DP能够应用到RL上,这章里的策略评估、策略迭代、值迭代都用到了DP。

    2019/02/26 RL RL_Notes

  7. 【强化学习笔记2】马尔科夫决策过程

    MDP(Markov Decision Process,马尔科夫决策过程)是强化学习的重要基础,所有的强化学习问题都可以抽象成一个MDP。在原教程中,这章的讲解思路是从简单到复杂一步一步讲解的,从MP(Markov Process,马尔科夫过程)到MRP(Markov Reward Process,马尔科夫奖励过程)再到MDP(Markov Decision Procee,马尔科夫决策过程)。我这里是直接讲解MDP,主要是我觉得没有必要讲解MP和MRP,因为这是为了讲解清楚MDP而引入的中间产物,后面不会用到。我尽量讲清楚,如果您觉得哪里不太清楚的,欢迎讨论,或者观看原视频和ppt。

    2019/02/25 RL RL_Notes

  8. 【强化学习笔记1】强化学习的介绍

    之前一直打算学习一下强化学习,也看了一些教程,比如西瓜书《机器学习》上的强化学习教程,但学完发现公式非常复杂,给人一种非常痛苦的感觉,再比如莫凡强化学习教程,一开始就有点云里雾里的感觉,感觉这个教程是需要一定的强化学习基础,再去学就好多了。

    2019/02/21 RL RL_Notes

  9. 使用Github搭建自己的个人博客

    现在,越来越多的技术人员都有写博客的习惯,来记录学习笔记、分享个人想法、与同行交流等等。这导致了大量博客、社交网站的兴起,比如csdn、简书、博客园、知乎等等。但是这些都是借助别人的平台,有诸多不便,比如你的博客样式是平台定的,你的博客可能有大量的广告,等等。如果你想拥有个性化的、纯净的博客,你可以自己搭建一个博客平台,可能需要一下这些步骤: 购买域名 部署网站 设计网站样式

    2019/02/15 Others