Stability workarounds for ceph/cgroups issues

- Add stale rbd cleanup fix - Add cleaning of cgroups mounts Change-Id: I9950496416fbbb572eb5775032305e18fee1f026
2019-05-01 14:04:38 -05:00 · 2019-05-01 14:04:38 -05:00 · df24b1853b
commit df24b1853b
parent e1328ed98b
5 changed files with 279 additions and 0 deletions
--- a/global/scripts/hanging-cgroup-release.yaml
+++ b/global/scripts/hanging-cgroup-release.yaml
@ -0,0 +1,26 @@
+---
+schema: pegleg/Script/v1
+metadata:
+  schema: metadata/Document/v1
+  name: hanging-cgroup-release
+  storagePolicy: cleartext
+  layeringDefinition:
+    abstract: false
+    layer: global
+data: |-
+  #!/bin/bash
+  set -ex
+
+  cgroup_count() {
+    echo "Current cgroup count: $(find /sys/fs/cgroup/*/system.slice -name tasks | wc -l)"
+  }
+
+  DATE=$(date)
+  echo "$(cgroup_count)"
+  echo   # Stop systemd mount unit that isn't actually mounted
+  echo "Stopping Kubernetes systemd mount units that are not mounted to the system."
+  systemctl list-units --state=running| \
+    sed -rn '/Kubernetes.transient.mount/s,(run-\S+).+(/var/lib/kubelet/pods/.+),\1 \2,p' | \
+    xargs -r -l1 sh -c 'test -d $2 || echo $1' -- | \
+    xargs -r -tl1 systemctl stop |& wc -l
+  echo "$(cgroup_count)"
--- a/global/scripts/rbd-roomba-scanner.yaml
+++ b/global/scripts/rbd-roomba-scanner.yaml
@ -0,0 +1,32 @@
+---
+schema: pegleg/Script/v1
+metadata:
+  schema: metadata/Document/v1
+  name: rbd-roomba-scanner
+  storagePolicy: cleartext
+  layeringDefinition:
+    abstract: false
+    layer: global
+data: |-
+  #!/bin/bash
+  set -ex
+
+  # don't put it in /tmp where it can be p0wned (???)
+  lsblk | awk '/^rbd/ {if($7==""){print $0}}' | awk '{ printf "/dev/%s\n",$1 }' > /var/run/rbd_list
+
+  # wait a while, so we don't catch rbd devices the kubelet is working on mounting
+  sleep 60
+
+  # finally, examine rbd devices again and if any were seen previously (60s ago) we will
+  # forcefully unmount them if they have no fs mounts
+  DATE=$(date)
+  for rbd in `lsblk | awk '/^rbd/ {if($7==""){print $0}}' | awk '{ printf "/dev/%s\n",$1 }'`; do
+    if grep -q $rbd /var/run/rbd_list; then
+      echo "[${DATE}] Unmapping stale RBD $rbd"
+      /usr/bin/rbd unmap -o force $rbd
+      # NOTE(supamatt): rbd unmap -o force will only succeed if there are NO pending I/O
+    else
+      echo "[${DATE}] Skipping RBD $rbd as it hasn't been stale for at least 60 seconds"
+    fi
+  done
+  rm -rf /var/run/rbd_list
--- a/global/software/charts/ucp/divingbell/divingbell.yaml
+++ b/global/software/charts/ucp/divingbell/divingbell.yaml
@ -24,6 +24,19 @@ metadata:
        path: .images.ucp.divingbell
      dest:
        path: .values.images
+
+    - src:
+        schema: pegleg/Script/v1
+        name: rbd-roomba-scanner
+        path: .
+      dest:
+        path: .values.conf.exec.X005-rbd-roomba-scanner.data
+    - src:
+        schema: pegleg/Script/v1
+        name: hanging-cgroup-release
+        path: .
+      dest:
+        path: .values.conf.exec.X005-hanging-cgroup-release.data
 data:
  chart_name: ucp-divingbell
  release: ucp-divingbell
@ -78,6 +91,17 @@ data:
        # were restarted. "Failed to add /run/systemd/ask-password to directory
        # watch: No space left on device". https://bit.ly/2Mj5qn2 TDP bug 427616
        fs.inotify.max_user_watches: '1048576'
+      exec:
+        X005-rbd-roomba-scanner:
+          rerun_policy: always
+          # 300 = 5 minutes
+          rerun_interval: 300
+          timeout: 300
+        X005-hanging-cgroup-release:
+          rerun_policy: always
+          # 300 = 5 minutes
+          rerun_interval: 3600
+          timeout: 600
  dependencies:
    - ucp-divingbell-htk
 ---
--- a/tools/fixes/hanging-cgroup-release.sh
+++ b/tools/fixes/hanging-cgroup-release.sh
@ -0,0 +1,96 @@
+#!/bin/bash
+set -ex
+
+CLUSTER_DNS=${CLUSTER_DNS:-10.96.0.10}
+
+KUBECTL_IMAGE=${KUBECTL_IMAGE:-gcr.io/google-containers/hyperkube-amd64:v1.11.6}
+UBUNTU_IMAGE=${UBUNTU_IMAGE:-docker.io/ubuntu:16.04}
+
+cat > /tmp/hanging-cgroup-release.yaml << 'EOF'
+---
+apiVersion: v1
+kind: ConfigMap
+metadata:
+  name: hanging-cgroup-release
+  namespace: kube-system
+  labels:
+    hotfix: 'true'
+data:
+  singleshot.sh: |+
+    #!/bin/bash
+    set -ex
+
+    while [ 1 ];
+      do
+        cgroup_count() {
+          echo "Current cgroup count: $(find /sys/fs/cgroup/*/system.slice -name tasks | wc -l)"
+        }
+
+        DATE=$(date)
+        echo "$(cgroup_count)"
+        echo   # Stop systemd mount unit that isn't actually mounted
+        echo "Stopping Kubernetes systemd mount units that are not mounted to the system."
+        systemctl list-units --state=running| \
+          sed -rn '/Kubernetes.transient.mount/s,(run-\S+).+(/var/lib/kubelet/pods/.+),\1 \2,p' | \
+          xargs -r -l1 sh -c 'test -d $2 || echo $1' -- | \
+          xargs -r -tl1 systemctl stop |& wc -l
+        echo "$(cgroup_count)"
+
+        sleep 3600
+
+      done;
+EOF
+cat >> /tmp/hanging-cgroup-release.yaml << EOF
+---
+apiVersion: extensions/v1beta1
+kind: DaemonSet
+metadata:
+  name: hanging-cgroup-release
+  namespace: kube-system
+spec:
+  template:
+    metadata:
+      labels:
+        name: hanging-cgroup-release
+    spec:
+      hostNetwork: true
+      hostPID: true
+      nodeSelector:
+        ucp-control-plane: enabled
+      containers:
+        - resources:
+            requests:
+              cpu: 0.1
+          securityContext:
+            privileged: true
+          image: ${UBUNTU_IMAGE}
+          name: hanging-cgroup-release
+          command: ["/bin/bash", "-cx"]
+          args:
+            - >
+              cp -p /tmp/singleshot.sh /host/tmp;
+              nsenter -t 1 -m -u -n -i /tmp/singleshot.sh;
+          volumeMounts:
+            - name: host
+              mountPath: /host
+            - name: hanging-cgroup-release
+              subPath: singleshot.sh
+              mountPath: /tmp/singleshot.sh
+      volumes:
+        - name: host
+          hostPath:
+            path: /
+        - name: hanging-cgroup-release
+          configMap:
+            name: hanging-cgroup-release
+            defaultMode: 0555
+EOF
+
+docker run --rm -i \
+        --net host \
+        -v /tmp:/work \
+        -v /etc/kubernetes/admin:/etc/kubernetes/admin \
+        -e KUBECONFIG=/etc/kubernetes/admin/kubeconfig.yaml \
+        ${KUBECTL_IMAGE} \
+            /kubectl apply -f /work/hanging-cgroup-release.yaml
+
--- a/tools/fixes/rbd-roomba-scanner.sh
+++ b/tools/fixes/rbd-roomba-scanner.sh
@ -0,0 +1,101 @@
+#!/bin/bash
+set -ex
+
+CLUSTER_DNS=${CLUSTER_DNS:-10.96.0.10}
+
+KUBECTL_IMAGE=${KUBECTL_IMAGE:-gcr.io/google-containers/hyperkube-amd64:v1.11.6}
+UBUNTU_IMAGE=${UBUNTU_IMAGE:-docker.io/ubuntu:16.04}
+
+cat > /tmp/rbd-roomba-scanner.yaml << 'EOF'
+---
+apiVersion: v1
+kind: ConfigMap
+metadata:
+  name: rbd-roomba-scanner
+  namespace: ceph
+  labels:
+    hotfix: 'true'
+data:
+  singleshot.sh: |+
+    #!/bin/bash
+    set -ex
+
+    while [ 1 ];
+
+      do
+
+        # don't put it in /tmp where it can be p0wned (???)
+        lsblk | awk '/^rbd/ {if($7==""){print $0}}' | awk '{ printf "/dev/%s\n",$1 }' > /var/run/rbd_list
+
+        # wait a while, so we don't catch rbd devices the kubelet is working on mounting
+        sleep 60
+
+        # finally, examine rbd devices again and if any were seen previously (60s ago) we will
+        # forcefully unmount them if they have no fs mounts
+        DATE=$(date)
+        for rbd in `lsblk | awk '/^rbd/ {if($7==""){print $0}}' | awk '{ printf "/dev/%s\n",$1 }'`; do
+          if grep -q $rbd /var/run/rbd_list; then
+            echo "[${DATE}] Unmapping stale RBD $rbd"
+            /usr/bin/rbd unmap -o force $rbd
+            # NOTE(supamatt): rbd unmap -o force will only succeed if there are NO pending I/O
+          else
+            echo "[${DATE}] Skipping RBD $rbd as it hasn't been stale for at least 60 seconds"
+          fi
+        done
+        rm -rf /var/run/rbd_list
+
+      done;
+EOF
+cat >> /tmp/rbd-roomba-scanner.yaml << EOF
+---
+apiVersion: extensions/v1beta1
+kind: DaemonSet
+metadata:
+  name: rbd-roomba-scanner
+  namespace: ceph
+spec:
+  template:
+    metadata:
+      labels:
+        name: rbd-roomba-scanner
+    spec:
+      hostNetwork: true
+      hostPID: true
+      nodeSelector:
+        openstack-control-plane: enabled
+      containers:
+        - resources:
+            requests:
+              cpu: 0.1
+          securityContext:
+            privileged: true
+          image: ${UBUNTU_IMAGE}
+          name: rbd-roomba-scanner
+          command: ["/bin/bash", "-cx"]
+          args:
+            - >
+              cp -p /tmp/singleshot.sh /host/tmp;
+              nsenter -t 1 -m -u -n -i /tmp/singleshot.sh;
+          volumeMounts:
+            - name: host
+              mountPath: /host
+            - name: rbd-roomba-scanner
+              subPath: singleshot.sh
+              mountPath: /tmp/singleshot.sh
+      volumes:
+        - name: host
+          hostPath:
+            path: /
+        - name: rbd-roomba-scanner
+          configMap:
+            name: rbd-roomba-scanner
+            defaultMode: 0555
+EOF
+
+docker run --rm -i \
+        --net host \
+        -v /tmp:/work \
+        -v /etc/kubernetes/admin:/etc/kubernetes/admin \
+        -e KUBECONFIG=/etc/kubernetes/admin/kubeconfig.yaml \
+        ${KUBECTL_IMAGE} \
+            /kubectl apply -f /work/rbd-roomba-scanner.yaml