Kubernetes 5

Tensorflow in Kubernetes - CPU Memory Troubleshooting

K8s에서 텐서플로우의 CPU Training을 돌릴 때 겪은 문제 CPU / Memory 사용량이 치솟아 QoS Burstable / BestEffort로는 Pod Eviction이 발생함 CPU / Memory의 Request와 Limit을 동일하게 설정해 QoS를 Guaranteed로 주면 OOM Killed로 죽음 원인은 기본 System Malloc을 사용할 때 Python TF가 돌면서 메모리 할당을 VM Memory Limit를 보지 않고 노드 호스트를 기준으로 동작해 Pod의 Limit를 초과하는 Memory를 사용해 OOM이 발생하는 것 같다. 이것 대신 구글의 libtcmalloc으로 변경해주면 된다. https://stackoverflow.com/a/57288305 TF 학습 이미지에..

개발/Kubernetes 2022.09.19

Hyper-V 에서 Kubernetes 설치하기

Ubuntu 18.04 / 20.04 를 Hyper-V에 띄운 후 K8s를 Step By Step으로 설치합니다. 이 포스트는 일반적인 minikube / kubespray 등 설치 패키지를 사용하지 않고 kubernetes 구성을 이해하기 위해 마스터, 워커 노드 구성 요소를 하나하나 바이너리 레벨로 설치하는 것을 목표로 합니다. Linux 기본 지식이 필요합니다. 먼저 마스터노드와 워커노드에 공통으로 필수적인 Kubelet, containerd, cni plugins, runC를 설치합니다. sudo su cd ~ # dsn resolve sh -c 'echo "DNS=8.8.8.8 8.8.4.4" >> /etc/systemd/resolved.conf' systemctl restart systemd-..

개발/Kubernetes 2022.05.27

Backend System Architecture 구성 경험담 정리

대규모, 특히 글로벌 서비스 규모나 그 규모로 확장이 예상될때 시스템 플랫폼에 어떤 장비나 오픈소스, 상용 서비스를 검토하면 좋은 선택이 될 수 있는가에 대한 선택과 사용 경험을 정리해 보려고 합니다. 주로 Kubernetes에서 운영되는 것과 AWS 서비스로 경험하였기 때문에 이것들 위주로 정리했습니다. 여기 나열된 것은 정답지가 아닙니다. 100가지 상황에는 100가지 해답이 있다고 생각합니다. Container Orchestration Kubernetes 대규모 서비스의 인프라는 현재 쿠버네티스 이외의 선택지가 존재하지 않습니다. AWS의 경우 EKS, Azure는 AKS, Google의 경우 GKE를 사용하면 됩니다. 온프레미스로 직접 구축하는 경우... 글로벌 서비스를 이걸로 할 생각 하는 거면..

개발/ETC 2021.09.02