Feedliu's Blogs

【论文阅读】node2vec

node2vec的论文地址：node2vec: Scalable Feature Learning for Networks

2019/05/06 GNN
【论文阅读】DQN

DQN的论文地址：Playing Atari with Deep Reinforcement Learning

2019/04/09 RL RL_Paper
Q-learning 和 Double Q-learning

Q-learning是一种无模型的、异步策略、时间差分（TD）控制方法，关于无模型、异步策略、时间差分、预测和控制等概念，在先前的强化学习笔记中有详细描述。Double Q-learning是针对Q-learning的缺点提出的一种改进方法。

2019/04/01 RL RL_Feeling
【强化学习笔记5】无模型控制

上一章中我们讲到了无模型的预测(Model-Free Prediction)，这一讲我们讲无模型的控制(Model-Free Control)。无模型的预测讲的是我们在不知道MDP环境信息的条件下如何评估一个策略，无模型的控制讲的是我们在不知道MDP环境信息的条件下如何优化一个策略。

2019/02/28 RL RL_Notes
【强化学习笔记4】无模型预测

上一张我们学习了如何应用动态规划解决强化学习问题，但是这是在MDP所有信息已知的情况下，如果不知道环境信息，我们该如何解决预测和控制问题呢？这章我们先来解决无环境信息的预测问题，称之为Model-Free Prediction。

2019/02/27 RL RL_Notes
【强化学习笔记3】MDP的动态规划

DP(Dynamic Programming，动态规划)也是强化学习的重要基础，因为MDP的天然属性，使得DP能够应用到RL上，这章里的策略评估、策略迭代、值迭代都用到了DP。

2019/02/26 RL RL_Notes
【强化学习笔记2】马尔科夫决策过程

MDP(Markov Decision Process，马尔科夫决策过程)是强化学习的重要基础，所有的强化学习问题都可以抽象成一个MDP。在原教程中，这章的讲解思路是从简单到复杂一步一步讲解的，从MP(Markov Process，马尔科夫过程)到MRP(Markov Reward Process，马尔科夫奖励过程)再到MDP(Markov Decision Procee，马尔科夫决策过程)。我这里是直接讲解MDP，主要是我觉得没有必要讲解MP和MRP，因为这是为了讲解清楚MDP而引入的中间产物，后面不会用到。我尽量讲清楚，如果您觉得哪里不太清楚的，欢迎讨论，或者观看原视频和ppt。

2019/02/25 RL RL_Notes
【强化学习笔记1】强化学习的介绍

之前一直打算学习一下强化学习，也看了一些教程，比如西瓜书《机器学习》上的强化学习教程，但学完发现公式非常复杂，给人一种非常痛苦的感觉，再比如莫凡强化学习教程，一开始就有点云里雾里的感觉，感觉这个教程是需要一定的强化学习基础，再去学就好多了。

2019/02/21 RL RL_Notes
使用Github搭建自己的个人博客

现在，越来越多的技术人员都有写博客的习惯，来记录学习笔记、分享个人想法、与同行交流等等。这导致了大量博客、社交网站的兴起，比如csdn、简书、博客园、知乎等等。但是这些都是借助别人的平台，有诸多不便，比如你的博客样式是平台定的，你的博客可能有大量的广告，等等。如果你想拥有个性化的、纯净的博客，你可以自己搭建一个博客平台，可能需要一下这些步骤：购买域名部署网站设计网站样式

2019/02/15 Others