今天在维护smokeping的节点时发现有一节点掉线,联系节点管理员重新上线无果,仍然无数据。

按照以往的习惯去分析,没发现问题,在/var/log/message发现的大量的RRD TOOL 时间戳错误,提示无法读写。

以为是master的RRD文件有问题,遂删除之。

然而多次重启后master端居然什么报错都没有了,而对应数据仍旧未显示。

继续排查,确认了slave和master时钟正常后,开始尝试进行tcp抓包。

抓包看到了正常节点的结构是带有ip的header,然后后面紧跟着大量数据。而故障节点只发送了三个数据就关闭了链接,随后http响应200.

因此判断是从机错乱,执行了清除从机htdocs,cache后一切正常了。


你是否会像清风拂过花儿一样与我相遇呢?