服务器搭建图床
工具链如下 阿里云轻量服务器 宝塔面板 Docker MinIO PicList IMCompressor 1. 搭建Docker 使用宝塔快速搭建Docker,若没有安装宝塔则先安装一下宝塔 wget -O install.sh https://download.bt.cn/install/install-ubuntu_6.0.sh && sudo bash install.sh 之后,安装好宝塔后,进入宝塔面板内,安装Docker 2. 安装MinIO 在线上镜像中搜索MinIO镜像,然后构建对应容器,并开启9001-->9001/tcp和 9000-->9000/tcp两个端口映射, MINIO_BROWSER_REDIRECT_URL对应的端口为控制台接口,MINIO_SERVER_URL对应端口是API使用。 在阿里云服务器防火墙中开放9000和9001端口 现在,可以通过域名/IP:控制台端口 的方式访问MinIO的控制台了 3. 配置MinIO 在MinIO的控制台输入创建时候的账号密码。就可以登录进去 登陆进去以后,创建我们的buc...
第四章策略梯度
1. 策略梯度算法 强化学习有3个组成部分:演员(actor)、环境和奖励函数。环境与奖励函数不是我们可以控制的,它们是在开始学习之前给定的。我们唯一需要做的就是调整演员里面的策略,使得演员可以得到最大的奖励 策略一般记作π\piπ。假设我们使用深度学习来做强化学习,策略就是一个网络。网络里面有一些参数,我们用θ\thetaθ来代表π\piπ的参数。网络的输入是智能体看到的东西,输出是我们可以执行的动作,有几个动作,输出层就有几个神经元 我们把初始状态记作s1s_1s1,把第一次执行的动作记作a1a_1a1,把第一次执行动作以后得到的奖励记作r1r_1r1。不同的人有不同的记法,有人觉得在s1s_1s1执行a1a_1a1得到的奖励应该记为r2r_2r2,这两种记法都可以 一场游戏称为一个回合。将这场游戏里面得到的所有奖励都加起来,就是总奖励(total reward),也就是回报,我们用RRR来表示它 在一场游戏里面,我们把环境输出的sss与演员输出的动作aaa全部组合起来,就是一个轨迹,即 τ={s1,a1,s2,a2,⋯ ,st,at}\tau = \{ s_1,...
终端美化
1. zsh 1.1 安装zsh sudo apt-get update sudo apt-get install zsh #设为默认 chsh -s $(which zsh) 不要关闭终端 1.2 安装oh-my-zsh 1、curl/wget下载 sh -c "$(curl -fsSL https://raw.githubusercontent.com/ohmyzsh/ohmyzsh/master/tools/install.sh)" 2、手动下载 git clone git@github.com:ohmyzsh/ohmyzsh.git cd ohmyzsh/tools/ ./install.sh 1.3 修改主题 vim ~/.zshrc 找到ZSH_THEME=“”,这句话,在双引号里面写上 crunch就可以啦 1.4 修改远程仓库地址 HTTPS访问GitHub经常受到网络限制或防火墙的影响,改用SSH是一个更稳定的选择 打开配置文件: vim ~/.oh-my-zsh/.git/config 将仓库 URL 从 HTTPS 改为 SSH 格式: [remot...