情境 组里同事开发了alert-speaker作为webhook给alertmanager调用,解决报警接收人的问题。 k8s的事件告警、日志告
有天,领导告知IAAS组新有一批空闲的物理机可以给我们用,希望扩容到k8s集群中,提升性能并降低云主机的成本,于是在IAAS组将系统重做之后
不时的收到个别k8s节点node notready的告警,大概如下: Component:kubelet Count:1 CreatedTimestamp:2019-11-06 16:42:51 Subject:Node节点不可用-default/nodenam
要严格保证SLA,SLR,很多人会拆解为降低MTTD,MTTR,网上关于他们的定义很多,比如: Mean Time To Detect(MTTD)=(故障得到定位
下午,收到一条异常事件的告警,Reason是ProbWarning,之前没见过。 下午给新版本的k8s(1.14)添加了事件监控,没一会便收到
线上k8s集群有一批新上的物理机,应用调度到物理机上以为性能会更好,但却发现容器CPU使用率并不低,即便是空闲时间也会高,物理机的load也
背景 当前ingress-nginx的版本比较旧(0.9.0)存在bug,比如:keep-alive不生效,另一方面对于用户呼声较高的新需求: