互联网公司完整监控内容

  1. 域名监控:看看dns解析是否正确,这个百度吃过大亏的

  2. 流量监控:主要是某个区域和全网流量是否有异常。

  3. 访问质量监控:通过对于前端服务器的流量镜像分析来判定网络质量值否正常。也有是从本地通往远程是否网络路由是否正常。也可以使用networkbench和gomez这种第三方监测来发现。

  4. 各地访问速度:这个基本需要在当地部署机房后才能测定,也有用networkbench和gomez来测量的。

  5. 各地流量

  6. 机房带宽使用

  7. 各地DNS速度

  1. 语义监控:就是对于页面中的关键字进行监控

  2. 语义监控(页面监控):其实就是通过get页面然后判断页面是否有预定义的关键字。

  3. 高级语义监控(面向功能):这个是为了监控页面中多个模块是否正常。这个需要在html对于不同的功能定义标签开始符和结束符,这样通过get这个面后看看标签之间是否数据存在就知道页面功能是否正常。

  4. 基础监控:系统的状态,cpu, load等等

  5. CPU资源占用: 这个就看CPU到底是多少核了,不能一定说多少

  6. 内存使用:这个要看实际使用的,不能算上buffer和cache,因为Linux系统默认是利用完所有的内存的

  7. 文件句柄的使用

  8. 网络句柄

  9. 各种状态的进程数

  10. 端口监控:telnet到机器的服务端口看看是否正确返回

  11. 结构体监控: 这个是当某个进程还在系统中存在,端口也存活,但是无法正常服务的情况下进行监控。可以模拟程序请求这个进程,看是否能正常工作并返回正确的值。

  12. 模块监控:

  13. 程序自身占用的资源是否合理

  14. 程序的性能表现是否正常

  15. 该程序的分支是否正常

  16. 日志监控:对于机器的错误日志,访问日志等信息进行监控

  17. 自定义监控:

服务监控标准:

  1. 数据加载情况

  2. 模块处理能力

2.1 平均耗时

2.2 队列长度

2.3 线程池使用率

  1. 模块间通讯状态

3.1 平均连接时间

3.2 读写错误数

异常根源分析:

  1. 关联关系查询

  2. 模块关联探测

  3. 服务器关联状态探测

  4. 网络关联探测

  5. 波动性预警

联动处理:

  1. 流量切换预案

  2. 服务器重启

  3. 磁盘数据清理

  4. 执行用户自定义命令

报警去重:

  1. 服务器维度

  2. 策略维度

  3. 多维度

  4. 计算同策略两次连续报警的时间间隔

  5. 最大等待时间