Microsoft MVP성태의 닷넷 이야기
글쓴 사람
정성태 (techsharer at outlook.com)
홈페이지
첨부 파일
 

AKS에서 hpa에 따른 autoscale 기능이 동작하지 않는다면?

결과 먼저 말하자면, 원인을 밝혀내진 못했으니 그냥 참고삼아 보시면 되겠습니다. ^^




Azure에 생성한 AKS 서비스에서 autoscale 설정을 했는데,

$ kubectl autoscale deployment --max=10 net-razor31-sample --min=2

아무리 부하를 줘도 pod는 그대로 2개에 머물고 있습니다.

$ kubectl get pods
NAME                                  READY   STATUS    RESTARTS   AGE
net-razor31-sample-6b747bb886-ncvvw   1/1     Running   0          4m51s
net-razor31-sample-6b747bb886-sxkbj   1/1     Running   0          5m6s

hpa 설정을 보면 이상 없는 듯한데요,

$ kubectl get hpa
NAME                 REFERENCE                       TARGETS         MINPODS   MAXPODS   REPLICAS   AGE
net-razor31-sample   Deployment/net-razor31-sample   <unknown>/80%   2         10        2          6m50s

실제로는 이상이 있는 것입니다. ^^ 문제가 되는 부분은 "TARGETS"의 조건인데 여기에 "<unknown>"이 나오는 것은 현재 해당 시스템의 성능 metrics 데이터를 정상적으로 가져오지 못한다는 것을 의미합니다. 따라서 부하 측정을 할 수 없고 당연히 autoscale을 위한 기준을 잡지 못하는 것입니다.




기본적으로 (근래 버전의 k8s를 선택한 경우) AKS는 metrics-server 구성 요소를 이미 준비하고 있습니다.

C:\temp> kubectl get pod --all-namespaces
NAMESPACE     NAME                                  READY   STATUS    RESTARTS   AGE
default       net-razor31-sample-6b747bb886-mldk2   0/1     Pending   0          107s
kube-system   azure-ip-masq-agent-tmqtq             1/1     Running   0          6h
kube-system   coredns-845757d86-7bzwn               1/1     Running   0          17h
kube-system   coredns-845757d86-rljs8               1/1     Running   0          17h
kube-system   coredns-autoscaler-5f85dc856b-m9s57   1/1     Running   0          17h
kube-system   csi-azuredisk-node-ltfl4              3/3     Running   0          6h
kube-system   csi-azurefile-node-8xggf              3/3     Running   0          6h
kube-system   kube-proxy-p4zj6                      1/1     Running   0          17h
kube-system   metrics-server-6bc97b47f7-6tqms       1/1     Running   0          17h
kube-system   tunnelfront-78bc5d7569-fvlth          1/1     Running   0          16h

따라서 성능 메트릭 데이터를 수집하지 못할 이유가 없는데요, 이에 대한 문제를 describe hpa로 살펴볼 수 있습니다.

c:\temp> kubectl describe hpa net-razor31-sample
Name:                                                  net-razor31-sample
Namespace:                                             default
Labels:                                                <none>
Annotations:                                           <none>
CreationTimestamp:                                     Tue, 25 Jan 2022 15:44:52 +0900
Reference:                                             Deployment/net-razor31-sample
Metrics:                                               ( current / target )
  resource cpu on pods  (as a percentage of request):  <unknown> / 80%
Min replicas:                                          2
Max replicas:                                          10
Deployment pods:                                       2 current / 2 desired
Conditions:
  Type           Status  Reason                   Message
  ----           ------  ------                   -------
  AbleToScale    True    SucceededGetScale        the HPA controller was able to get the target's current scale
  ScalingActive  False   FailedGetResourceMetric  the HPA was unable to compute the replica count: failed to get cpu utilization: missing request for cpu
Events:
  Type     Reason                        Age   From                       Message
  ----     ------                        ----  ----                       -------
  Normal   SuccessfulRescale             33s   horizontal-pod-autoscaler  New size: 2; reason: Current number of replicas below Spec.MinReplicas
  Warning  FailedGetResourceMetric       18s   horizontal-pod-autoscaler  failed to get cpu utilization: unable to get metrics for resource cpu: no metrics returned from resource metrics API
  Warning  FailedComputeMetricsReplicas  18s   horizontal-pod-autoscaler  invalid metrics (1 invalid out of 1), first error is: failed to get cpu utilization: unable to get metrics for resource cpu: no metrics returned from resource metrics API
  Warning  FailedGetResourceMetric       3s    horizontal-pod-autoscaler  failed to get cpu utilization: missing request for cpu
  Warning  FailedComputeMetricsReplicas  3s    horizontal-pod-autoscaler  invalid metrics (1 invalid out of 1), first error is: failed to get cpu utilization: missing request for cpu

위의 결과에 보면, "failed to get cpu utilization: unable to get metrics for resource cpu: no metrics returned from resource metrics API"라는 메시지가 있는데요, 뭔가 해당 pod에서 CPU 자원을 구하는 코드가 동작하지 않는 듯합니다.

이상한 것은, top nodes나 top pods 옵션에서는 CPU 정보를 잘 가져온다는 점입니다.

c:\temp> kubectl top nodes
NAME                                CPU(cores)   CPU%   MEMORY(bytes)   MEMORY%
aks-agentpool-20726260-vmss000000   216m         11%    2073Mi          45%

c:\temp> kubectl top pods
NAME                                  CPU(cores)   MEMORY(bytes)
net-razor31-sample-574ffd4758-4zlxm   2m           52Mi
net-razor31-sample-574ffd4758-7szr8   1m           54Mi
sample-back-56bf7ff864-7hdzm          2m           14Mi
sample-front-65fd487fdf-jjhwh         1m           43Mi
sample-front-65fd487fdf-sjcbr         1m           43Mi

참... 이걸 뭐라고 설명해야 할지 모르겠군요. ^^;




웹 검색을 했지만, 딱히 이거라고 할 만한 오류 원인을 찾지 못했습니다. 그래서 어쩔 수 없이 AKS 클러스터를 새로 생성하는 것으로 해결을 했습니다.

단지, 이전 실습과 다르게 한 점이 있다면,

AKS - Azure Kubernetes Service 생성 및 SLO/SLA 변경 방법
; https://www.sysnet.pe.kr/2/0/12922

이번에는 클러스터 생성 시 ACR까지 함께 생성했다는 점입니다. 그 외에는 (쿠버네티스 버전을 포함한) 모든 옵션들이 이전 클러스터 생성과 다른 점이 없었습니다. 하지만 상식적으로 ACR이 성능 메트릭스를 가져오는 것에 영향을 미쳤을 것 같지는 않고, 테스트 플랫폼이라 이거저거 실습하느라 건드린 무엇인가가... 문제였을 듯합니다.




[이 글에 대해서 여러분들과 의견을 공유하고 싶습니다. 틀리거나 미흡한 부분 또는 의문 사항이 있으시면 언제든 댓글 남겨주십시오.]







[최초 등록일: ]
[최종 수정일: 1/26/2022]

Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.
by SeongTae Jeong, mailto:techsharer at outlook.com

비밀번호

댓글 작성자
 




... 121  122  123  124  125  126  127  128  129  130  131  132  133  [134]  135  ...
NoWriterDateCnt.TitleFile(s)
1738정성태8/23/201423439.NET Framework: 456. C# - CAS를 이용한 Lock 래퍼 클래스파일 다운로드1
1737정성태8/20/201420916VS.NET IDE: 93. Visual Studio 2013 동기화 문제
1736정성태8/19/201426911VC++: 79. [부연] CAS Lock 알고리즘은 과연 빠른가? [2]파일 다운로드1
1735정성태8/19/201419391.NET Framework: 455. 닷넷 사용자 정의 예외 클래스의 최소 구현 코드 - 두 번째 이야기
1734정성태8/13/201421144오류 유형: 237. Windows Media Player cannot access the file. The file might be in use, you might not have access to the computer where the file is stored, or your proxy settings might not be correct.
1733정성태8/13/201427480.NET Framework: 454. EmptyWorkingSet Win32 API를 사용하는 C# 예제파일 다운로드1
1732정성태8/13/201435807Windows: 99. INetCache 폴더가 다르게 보이는 이유
1731정성태8/11/201428271개발 환경 구성: 235. 점(.)으로 시작하는 파일명을 탐색기에서 만드는 방법
1730정성태8/11/201423457개발 환경 구성: 234. Royal TS의 터미널(Terminal) 연결에서 한글이 깨지는 현상 해결 방법
1729정성태8/11/201419456오류 유형: 236. SqlConnection - The requested Performance Counter is not a custom counter, it has to be initialized as ReadOnly.
1728정성태8/8/201431688.NET Framework: 453. C# - 오피스 파워포인트(Powerpoint) 파일을 WinForm에서 보는 방법파일 다운로드1
1727정성태8/6/201421890오류 유형: 235. SignalR 오류 메시지 - Counter 'Messages Bus Messages Published Total' does not exist in the specified Category. [2]
1726정성태8/6/201420703오류 유형: 234. IIS Express에서 COM+ 사용 시 SecurityException - "Requested registry access is not allowed" 발생
1725정성태8/6/201422644오류 유형: 233. Visual Studio 2013 Update3 적용 후 Microsoft.VisualStudio.Web.PageInspector.Runtime 모듈에 대한 FileNotFoundException 예외 발생
1724정성태8/5/201427450.NET Framework: 452. .NET System.Threading.Thread 개체에서 Native Thread Id를 구하는 방법 - 두 번째 이야기 [1]파일 다운로드1
1723정성태7/29/201459838개발 환경 구성: 233. DirectX 9 예제 프로젝트 빌드하는 방법 [3]파일 다운로드1
1722정성태7/25/201422178오류 유형: 232. IIS 500 Internal Server Error - NTFS 암호화된 폴더에 웹 애플리케이션이 위치한 경우
1721정성태7/24/201425479.NET Framework: 451. 함수형 프로그래밍 개념 - 리스트 해석(List Comprehension)과 순수 함수 [2]
1720정성태7/23/201423452개발 환경 구성: 232. C:\WINDOWS\system32\LogFiles\HTTPERR 폴더에 로그 파일을 남기지 않는 설정
1719정성태7/22/201427333Math: 13. 동전을 여러 더미로 나누는 경우의 수 세기(Partition Number) - 두 번째 이야기파일 다운로드1
1718정성태7/19/201436765Math: 12. HTML에서 수학 관련 기호/수식을 표현하기 위한 방법 - MathJax.js [4]
1716정성태7/17/201436482개발 환경 구성: 231. PC 용 무료 안드로이드 에뮬레이터 - genymotion
1715정성태7/13/201431571기타: 47. 운영체제 종료 후에도 USB 외장 하드의 전원이 꺼지지 않는 경우 [3]
1714정성태7/11/201421571VS.NET IDE: 92. Visual Studio 2013을 지원하는 IL Support 확장 도구
1713정성태7/11/201445341Windows: 98. 윈도우 시스템 디스크 용량 확보를 위한 "Package Cache" 폴더 이동 [1]
1712정성태7/10/201433886.NET Framework: 450. 영문 윈도우에서 C# 콘솔 프로그램의 유니코드 출력 방법 [3]
... 121  122  123  124  125  126  127  128  129  130  131  132  133  [134]  135  ...