무엇인가
이 핸드북은 5노드 Proxmox VE 9.1.1 클러스터에서 운영되는 CMP(Cloud Management Platform)의 Scenario Integration Test(STN)를 준비하기 위해 작성된 사전 정찰 문서 시리즈다.
CMP는 enterprise 고객을 대상으로 Proxmox 인프라를 REST API로 자동 관리하는 상용 제품. 본 핸드북은 그 제품의 테스트 환경 자체를 테스트 시작 전에 충분히 이해해 두기 위한 작업의 산출물이다.
테스트 환경은 단일 서버랙에 5명의 테스터가 격리 합의 없이 공존하는 상태이며, 자원 명명·작성자 추적·평면 분리 등이 명문 규약 없이 운영된다. 이 환경에서 STN을 신뢰할 수 있게 진행하려면, 현 상태의 정확한 인벤토리와 리스크 매트릭스가 선행되어야 한다 — 본 핸드북이 그 역할을 한다.
누구를 위한 것인가
| 독자 | 어디서부터 읽나 |
|---|---|
| 본 클러스터에서 STN을 수행하려는 우리 팀 테스터 | 챕터 00 → 08 → 09 순서. 챕터 09는 출력 권장 |
| 개발팀·운영팀과 협의 회의 참석자 | 챕터 04 (협의 의제) + 챕터 08 §5 (P0 5건) |
| 신규 합류 테스터 | 챕터 10 §12 온보딩 4주 커리큘럼 |
| 유사 환경에서 같은 작업을 시작할 다른 사람 | 챕터 00 → 01 → 각 영역별로 |
| CMP 설계자 | 각 챕터 §4 (CMP 테스트 시나리오) |
무엇을 다루는가
10개 챕터 + 보조 자산.
핸드북 본 시리즈 (10 챕터, 약 8,000줄)
| # | 제목 | 요약 |
|---|---|---|
| 00 | 핸드북 개요 | 환경·범위·작성 원칙 |
| 01 | 클러스터 정찰 | 정족수·corosync·pmxcfs |
| 02 | 노드 정찰 | CPU·메모리·NTP·재부팅 이력 |
| 03 | 디스크 정찰 | 스토리지 인벤토리·VM 디스크 매핑·NFS alias chaos |
| 04 | 스토리지 자원 관리 | 협의 의제 챕터 (회의 후 정책 챕터로 개정) |
| 05 | 네트워크 정찰 | 4평면 구성·NIC 속도·CMP 라우팅 |
| 06 | 가상 자원 인벤토리 | VM 41개 전수조사·test 처분 규칙 |
| 07 | 로그 시스템 해부 | journald·pvedaemon·작성자 추적 |
| 08 | 위험 매트릭스 및 격리 전략 | 격자 매트릭스(L×R)·붉은 선·격리 |
| 09 | Pre-test 체크리스트 | STN 당일 실행 문서 |
| 10 | 정찰 산출물 템플릿 | 양식 11종 통합 |
보조 자산
| 문서 | 역할 |
|---|---|
masking-policy-v2.md | 마스킹 정책 v2 (챕터 00~08 적용) |
masking-policy-v3.md | 마스킹 정책 v3 (챕터 09 이후 적용) |
WorkLog 시리즈 (worklog-YYYY-MM-DD-*.md) | 단일 작업의 종적 기록. 핸드북의 보조 자산 |
어떻게 만들어졌는가
핸드북은 계층별 정찰 + 챕터 간 인계의 흐름으로 만들어졌다.
물리 (00)
↓
클러스터·노드 (01·02)
↓
스토리지·네트워크 (03·05)
↓
가상 자원 (06)
↓
로그 (07)
↓
종합 분석 (08)
↓
실행 (09·10)각 챕터는 자기 영역에서 발견한 것을 명시적으로 후속 챕터에 인계한다. 인계는 각 챕터 §7 또는 §8 (잔여 정비·추적 항목 + 부록 B 다음 챕터로의 인계)에서 추적 가능. 챕터 04는 이 인계 사슬에서 합의가 필요한 항목들이 모이는 자리.
본 시리즈는 2026-04-23 ~ 2026-04-25 사이 약 60시간에 걸쳐 작성. 데이터 수집은 5노드 동시 실행 명령 묶음으로 수행하고, 본문은 수집 결과를 해석·박제한 산출물.
어떻게 읽는가
첫 진입자에게
- 이 README (5분)
- 챕터 00 핸드북 개요 (15분) — 환경 그림 파악
- 챕터 08 §3 붉은 선 + §5 STN 직전 체크 (10분) — 가장 시급한 결론
- 본인 관심 영역 챕터 (각 30~60분)
회의 참석 전 30분 사전 준비
- 챕터 04 §3 의제 9건
- 챕터 08 §5.1 P0 5건
- WorkLog 2026-04-24 §5 (iSCSI 유령 LUN 진단 결과)
STN 당일
- 챕터 09 §1 붉은 선 (출력본)
- 챕터 09 §2 STAGE 1·2·3 체크
- 챕터 09 §3 30분 주기 헬스 체크 스크립트
핵심 발견 7건
본 정찰에서 가장 중요한 발견들. 자세한 내용은 챕터 08 §2 또는 해당 챕터 참조.
| # | 발견 | 영향 | 챕터 |
|---|---|---|---|
| 1 | nd02 storage 평면 100 Mbps 링크 (다른 4노드 2.5 Gbps) | iSCSI/NFS/Corosync ring1 모두 1/25 속도 | 05 §2.3 |
| 2 | CMP 요청이 nd01에 집중 — 5노드 분산 외형 vs 단일 처리 실제 | HA 효과 무실, 테스트 결과 노드 편향 | 05 §2.7 |
| 3 | NFS alias chaos — nfs-test-testerB 안에 testerC 데이터 | 잘못된 정리 명령으로 데이터 손실 위험 | 03 §2.7.1 |
| 4 | iSCSI 유령 LUN 45만 건/일 에러 | journal 용량 + 모니터링 노이즈 | 03 §2.1.2, 07 §2.4 |
| 5 | VM 802 마이그레이션 8일 방치 + 로그 모순 | 시스템 인식의 일관성 결함 | 06 §2.8, 07 §2.6 |
| 6 | VM 112 작성자 미상 + 3일 고부하 | 처분 판단 불가 — Slack 질의 의존 | 06 §2.7 |
| 7 | 41개 VM 중 14개가 mgmt 평면 NIC 사용 | 평면 분리 설계의 실운영 붕괴 | 05 §2.5, 06 §2.5 |
문서 작성 원칙
본 핸드북이 따른 원칙들:
- 현상-원인-해결의 분리: 핸드북은 현상을, WorkLog는 원인·해결을 다룬다 (챕터 07 §0.1)
- 격자 평가 우선: 모든 작업 권고는 Blast Radius × Reversibility 격자로 표시 (챕터 08 §1)
- 마스킹 정책 분리: 출력 인용 vs 명령 블록의 마스킹 처리는 다르다 (
masking-policy-v2.md§2) test규칙: VM 처분의 단일 기준은 "이름에test포함 여부" (챕터 06 §0.1)- 수집 명령의 자기 결함 박제: 정찰 명령 자체의 한계도 본문에 명시 (챕터 05 §7.1, 06 §7.2)
- 인용 가능한 외부 링크: 모든 챕터에 공식 문서 링크 부록 (각 챕터 부록 C)
챕터 간 의존 관계
README (이 문서)
│
├── 00 핸드북 개요 ─────────────────────────┐
│ │
├── 01 클러스터 정찰 ──┬── 02 노드 정찰 │
│ │ │
│ └── 03 디스크 정찰 ───┼── 05 네트워크 정찰
│ │
│ └── 06 가상 자원
│ │
│ └── 07 로그
│ │
│ └── 08 위험 매트릭스
│ │
├── 04 스토리지 자원 관리 ←──── (08의 P0 항목들이 모임) ─────┤
│ (협의 의제) │
│ │
└── 09 Pre-test 체크리스트 ←── (08의 결론을 실행 형식으로) ──┤
│ │
└── 10 정찰 산출물 템플릿 ←── (09 + 모든 챕터 §6 통합) ─┘
WorkLog 시리즈 (보조)
├── 2026-04-24 iSCSI multi-storage provisioning
└── (향후 추가)한계와 미완
본 핸드북에는 명시된 한계가 있다.
- 챕터 04는 협의 의제 상태 — 회의 후 정책 챕터로 재작성 필요
- VM 112 작성자 추적 실패 — journald 보존 기간 밖 (챕터 07 §2.9.3)
- VM 802 마이그레이션 모순 미해결 — admin01 직접 확인 필요
- nd03 brctl show 데이터 절단 — 수집 명령 결함, 재수집 미수행 (챕터 05 §7.1)
- 챕터 07의 wtmpdb 5일 보존 한계 — 그 이전 로그인 이력 추적 불가
이 한계들은 모두 본문에 박제되어 있고, 후속 회의·작업에서 해소될 사항.
외부 공유 시 주의
본 핸드북이 외부에 공유될 경우:
- 마스킹 정책 v2/v3 적용 상태 확인 (
masking-policy-v3.md§5 검증 스크립트 사용) - 챕터별
masking_policy메타 필드 확인 (v2 또는 v3) - WorkLog는 v3 소급 적용 가능 (외부 공유 가능성 더 높음)
- 회사 식별 정보가 잔존하지 않는지 sed 검증 (
grep -nE 'corp|letech|jykim|ksy0724|...')
상세 검증 절차는 masking-policy-v3.md §5 참조.
라이선스 / 사용 권리
본 핸드북은 회사 내부 작업의 산출물로, 작성자 개인의 학습 기록 + 팀 자산. 외부 공유는 회사 정책에 따른다.
다른 환경에서 비슷한 정찰을 하려는 분에게 이 구조 자체는 참고 가능. 챕터 구성·격자 매트릭스·양식 11종은 일반화 가능한 도구로 재사용 가능.
작성자
- Davi (testerSelf) — 본 핸드북 시리즈의 단독 작성자
- 작성 도구·방법: 5노드 SSH 동시 수집 명령 + 분석 + Markdown
- 협업: 본 시리즈의 외부 검토는 미수행 상태 (1차 완결 시점)
변경 이력
| 일자 | 내용 |
|---|---|
| 2026-04-23 | 챕터 00·01·02·03 초안 작성. 마스킹 정책 v1·v2 |
| 2026-04-24 | 챕터 05 작성. WorkLog 2026-04-24 (iSCSI) 작성 |
| 2026-04-25 | 챕터 06·07·08 작성. 마스킹 정책 v3 |
| 2026-04-26 | 챕터 04(의제)·09·10 작성. 본 README 작성. 시리즈 1차 완결 |
다음 마일스톤
- 2026-04-27 (예정): 개발팀·운영팀 협의 회의 → 챕터 04 본 정책 재작성
- 2026-05-초 (예정): 첫 STN 수행 → 첫 STN 복기 WorkLog 작성
- 이후: 누적 STN 경험을 바탕으로 핸드북 갱신
빠른 링크
- 환경 개요: 챕터 00 §1
- 가장 시급한 결론: 챕터 08 §3 붉은 선
- STN 당일 체크: 챕터 09 §1 (1페이지)
- 협의 의제: 챕터 04 §3
- 마스킹 정책:
masking-policy-v3.md§1 - 양식 모음: 챕터 10 부록 A
- WorkLog 시리즈 진입점:
worklog-2026-04-24-iscsi-multi-storage-provisioning.md
본 README는 핸드북 시리즈의 진입점이자 외부 공유 시 첫 페이지다. 시리즈 갱신 시 본 README도 함께 갱신한다.