redis近期踩的坑总结
1、主从问题核心系统:公司之前开发自己部署的redis3主3从3哨兵,程序端分片,而且把哨兵部署到了主上。刚好主挂了一台,导致整个系统可用。优化部署:加一台虚拟机作为哨兵专用机,共计9哨兵(3主3从9哨兵),经测试,可以正常切换。2、带上业务切换问题前几天刚好一台物理机挂了,哨兵正常切换,但是程序端报错,发现连接redis池报错,重启web应用程序后恢复。优化程
1、主从问题
核心系统:公司之前开发自己部署的redis3主3从3哨兵,程序端分片,而且把哨兵部署到了主上。
刚好主挂了一台,导致整个系统可用。
优化部署:加一台虚拟机作为哨兵专用机,共计9哨兵(3主3从9哨兵),经测试,可以正常切换。
2、带上业务切换问题
前几天刚好一台物理机挂了,哨兵正常切换,但是程序端报错,发现连接redis池报错,重启web应用
程序后恢复。
优化程序:自动重连
网上找的,隔天让开发的同学试试
http://www.mamicode.com/info-detail-1896700.html
3、维修物理机
因为主都切换到别的机器上了,这台物理机上的虚拟机全是备,感觉没什么问题,结果所有系统报卡
,看看web服务器log,发现一直在找这挂掉的备机,也影响业务,看来我还是太单纯了。还是应该在非
业务时间去做停机维护,无论是主还是备。
[ERROR] 2017-11-28 21:36:30.119 [Thread-8] [error_logger] - Lost connection to Sentinel at 192.168.2.99:36381. Sleeping 5000ms and retrying.
[ERROR] 2017-11-28 21:36:30.134 [Thread-5] [error_logger] - Lost connection to Sentinel at 192.168.2.98:36380. Sleeping 5000ms and retrying.[ERROR] 2017-11-28 21:36:30.241 [Thread-2] [error_logger] - Lost connection to Sentinel at 192.168.2.97:36379. Sleeping 5000ms and retrying.
4、因双11活动,接着11月份做了很多活动redis里缓存的数据为过期,内存不够用报警。
但是发现系统始终还有2g内存
两个解决方法(overcommit_memory)
1. echo "vm.overcommit_memory=1" > /etc/sysctl.conf 或 vi /etcsysctl.conf , 然后reboot重启机器
2. echo 1 > /proc/sys/vm/overcommit_memory 不需要启机器就生效
overcommit_memory参数说明:
设置内存分配策略(可选,根据服务器的实际情况进行设置)
/proc/sys/vm/overcommit_memory
可选值:0、1、2。
0, 表示内核将检查是否有足够的可用内存供应用进程使用;如果有足够的可用内存,内存申请允许;否则,内存申请失败,并把错误返回给应用进程。
1, 表示内核允许分配所有的物理内存,而不管当前的内存状态如何。
2, 表示内核允许分配超过所有物理内存和交换空间总和的内存
注意:redis在dump数据的时候,会fork出一个子进程,理论上child进程所占用的内存和parent是一样的,比如parent占用 的内存为8G,这个时候也要同样分配8G的内存给child,如果内存无法负担,往往会造成redis服务器的down机或者IO负载过高,效率下降。所 以这里比较优化的内存分配策略应该设置为 1(表示内核允许分配所有的物理内存,而不管当前的内存状态如何)。
这里又涉及到Overcommit和OOM。
什么是Overcommit和OOM
在Unix中,当一个用户进程使用malloc()函数申请内存时,假如返回值是NULL,则这个进程知道当前没有可用内存空间,就会做相应的处理工作。许多进程会打印错误信息并退出。
Linux使用另外一种处理方式,它对大部分申请内存的请求都回复"yes",以便能跑更多更大的程序。因为申请内存后,并不会马上使用内存。这种技术叫做Overcommit。
当内存不足时,会发生OOM killer(OOM=out-of-memory)。它会选择杀死一些进程(用户态进程,不是内核线程),以便释放内存。
Overcommit的策略
Linux下overcommit有三种策略(Documentation/vm/overcommit-accounting):
0. 启发式策略。合理的overcommit会被接受,不合理的overcommit会被拒绝。
1. 任何overcommit都会被接受。
2. 当系统分配的内存超过swap+N%*物理RAM(N%由vm.overcommit_ratio决定)时,会拒绝commit。
overcommit的策略通过vm.overcommit_memory设置。
overcommit的百分比由vm.overcommit_ratio设置。
# echo 2 > /proc/sys/vm/overcommit_memory
# echo 80 > /proc/sys/vm/overcommit_ratio
当oom-killer发生时,linux会选择杀死哪些进程
选择进程的函数是oom_badness函数(在mm/oom_kill.c中),该函数会计算每个进程的点数(0~1000)。
点数越高,这个进程越有可能被杀死。
每个进程的点数跟oom_score_adj有关,而且oom_score_adj可以被设置(-1000最低,1000最高)。
更多推荐
所有评论(0)