HBS FreeTalk

  • 홈
  • 태그
  • 방명록

malloc 1

Tensorflow in Kubernetes - CPU Memory Troubleshooting

K8s에서 텐서플로우의 CPU Training을 돌릴 때 겪은 문제 CPU / Memory 사용량이 치솟아 QoS Burstable / BestEffort로는 Pod Eviction이 발생함 CPU / Memory의 Request와 Limit을 동일하게 설정해 QoS를 Guaranteed로 주면 OOM Killed로 죽음 원인은 기본 System Malloc을 사용할 때 Python TF가 돌면서 메모리 할당을 VM Memory Limit를 보지 않고 노드 호스트를 기준으로 동작해 Pod의 Limit를 초과하는 Memory를 사용해 OOM이 발생하는 것 같다. 이것 대신 구글의 libtcmalloc으로 변경해주면 된다. https://stackoverflow.com/a/57288305 TF 학습 이미지에..

개발/Kubernetes 2022.09.19
1
더보기
프로필사진

현직 개발자로 일하고 있습니다.

  • 분류 전체보기 (82)
    • 개발 (20)
      • NodeJS (2)
      • Go (0)
      • Kubernetes (7)
      • AWS (3)
      • ETC (7)
    • 일상 (14)
      • Life (1)
      • Coffee (6)
      • Car (2)
      • 사용기 (1)
      • 갬성 (2)
      • 기타 (0)
    • 게임 (5)
      • PUBG (1)
    • 투자 | 재태크 (42)
      • 월 적립식 투자 (39)
      • 해외 주식 투자 (3)

Tag

주식, TQQQ, etf, 게임, 커피, 미국주식, qld, 적립식, SCHD, qqq, 젠레스존제로, 핸드드립, Kubernetes, 나스닥, 투자, CRM3605, eks, 해외주식, 미국, AWS,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

Archives

Calendar

«   2025/05   »
일 월 화 수 목 금 토
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31

Copyright © Kakao Corp. All rights reserved.

  • HBS FreeTalk (OLD)

티스토리툴바