효율성과 속도 향상을 위한 ML/AI 개발

AI/ML 개발의 팽팽한 세계에서는 ML 엔지니어의 요구에 부응할 수 있는 인프라가 중요합니다. 느린 빌드 시간과 패키징 및 실행 파일 배포의 비효율성은 생산성을 저해하고 귀중한 시간을 낭비할 수 있습니다.

우리 팀은 이러한 도전에 대응하기 위해 느린 빌드와 패키징 비효율성에 대해 적극적인 대책을 취하여 오버헤드를 크게 감소시키고 효율성을 향상시켰습니다.

반복적인 재빌드와 링크를 필요로하는 구식 개정판에 의존하는 대신, 우리는 빌드 그래프를 간소화하고 의존성 카운트를 최적화하여 재빌드를 최소화하는 것에 집중했습니다. 이 접근 방식은 많은 재빌드를 크게 줄이고 전체적인 빌드 속도를 향상시켰습니다.

또 다른 중대한 장애물은 실행 파일의 패키징과 배포였습니다. 이 도전을 극복하기 위해 우리는 Content Addressable Filesystem (CAF)을 사용하여 점진적인 방식을 채택했습니다. CAF는 내용을 인식하는 방식으로 중복된 업로드를 지능적으로 건너뛰어서 기존에 콘텐츠 주소 지정 스토리지 (CAS)에 있는 파일을 설정하는 합니다. 이를 통해 패키징 시간이 줄어들 뿐만 아니라 대형 실행 파일을 다룰 때 가져오는 오버헤드도 최소화됩니다.

CAF 시스템의 효율성을 향상시키기 위해 우리는 데이터 센터 호스트의 대부분에 CAS 데몬을 배포했습니다. 이 데몬은 로컬 캐시를 유지하고, 다른 CAS 데몬 인스턴스와의 P2P 네트워크를 구성하며, 콘텐츠 검색을 최적화하는 역할을 담당합니다. 이 네트워크를 활용하여 우리는 다른 인스턴스에서 직접 콘텐츠를 가져와 대기 시간과 저장 용량 대역폭을 줄일 수 있습니다.

Docker의 OverlayFS와 같은 전통적인 레이어 기반 솔루션과는 달리 우리의 접근 방식은 직접 파일 액세스와 스마트한 어필리티 라우팅을 우선시합니다. 이를 통해 레이어 구조의 복잡성 없이 여러 실행 파일 간에 다양한 종속성을 효율적으로 관리할 수 있습니다. 또한 파일 시스템으로 Btrfs를 사용함으로써 압축 기능과 압축된 저장 데이터를 직접 확장로에 작성할 수 있는 이점을 얻을 수 있습니다.

느린 빌드와 비효율적인 실행 파일 패키징 및 배포의 도전에 대응함으로써 우리는 ML 엔지니어가 보다 효율적으로 작업하고 최신 솔루션을 제공할 수 있도록 지원했습니다. 재빌드 감소, 의존성 관리 최적화, 점진적 패키징 솔루션 적용에 중점을 두어 AI/ML 개발 프로세스에서 상당한 시간 절약과 생산성 향상을 이룩했습니다.

FAQ 섹션:

Q: AI/ML 개발에서 팀이 직면한 문제는 무엇이었나요?
A: 팀이 직면한 문제는 느린 빌드 시간, 패키징 및 실행 파일 배포의 비효율성, 여러 실행 파일 간의 다양한 종속성 관리의 복잡성 등이었습니다.

Q: 팀은 느린 빌드를 어떻게 해결했나요?
A: 팀은 빌드 그래프를 간소화하고 의존성 카운트를 최적화함으로써 느린 빌드 문제를 해결했으며, 이를 통해 많은 재빌드를 줄이고 전체적인 빌드 속도를 개선했습니다.

Q: 팀은 실행 파일의 패키징과 배포를 어떻게 대응했나요?
A: 팀은 Content Addressable Filesystem (CAF)를 사용하여 점진적인 방식을 도입했습니다. CAF는 중복된 업로드를 지능적으로 건너뛰어 패키징 시간을 줄이고 가져오는 오버헤드를 최소화합니다.

Q: 데이터 센터 호스트에 배포된 CAS 데몬의 역할은 무엇인가요?
A: CAS 데몬은 로컬 캐시 유지, 다른 CAS 데몬 인스턴스와의 P2P 네트워크 구성, 콘텐츠 검색 최적화를 담당합니다. 이를 통해 다른 인스턴스에서 직접 콘텐츠를 가져와 대기 시간과 저장 용량 대역폭을 줄일 수 있습니다.

Q: 팀은 레이어 구조의 복잡성 없이 어떻게 종속성을 관리하나요?
A: 우리 팀은 기존의 Docker OverlayFS와 같은 솔루션 대신 직접 파일 액세스와 스마트한 어필리티 라우팅을 우선시합니다. 이 접근 방식을 통해 여러 실행 파일 간의 다양한 종속성을 효율적으로 관리할 수 있습니다.

Q: 팀이 사용하는 파일 시스템은 무엇이며 어떤 이점이 있나요?
A: 팀은 Linux에서 압축, 스냅샷, 서브볼륨, 확장성 등의 기능을 제공하는 Btrfs 파일 시스템을 사용합니다. 이를 통해 효율성과 저장 용량을 향상시킬 수 있습니다.

정의:

– AI/ML: 인공지능/기계 학습을 나타냅니다. 명시적인 지시 없이 컴퓨터가 작업을 수행하는 알고리즘과 모델의 개발과 적용을 의미합니다.
– ML 엔지니어: 기계 학습에 특화된 엔지니어로, ML 알고리즘과 모델을 개발, 구현 및 최적화합니다.
– 재빌드: 소프트웨어나 코드를 재구축하거나 다시 빌드하는 과정입니다.
– 패키징: 소프트웨어를 관련 파일과 종속성과 함께 번들로 준비하는 과정입니다.
– Content Addressable Filesystem (CAF): 위치나 이름이 아닌 콘텐츠를 기반으로 파일을 식별하는 파일 시스템으로, 효율적인 저장 및 검색을 가능하게 합니다.
– Content Addressable Storage (CAS): 콘텐츠를 참조하고 식별하는 고유한 식별자를 사용하는 저장 시스템으로, 중복 제거 및 효율적인 데이터 검색을 용이하게 합니다.
– 종속성: 소프트웨어가 제대로 실행되기 위해 의존하는 다른 소프트웨어 구성요소나 라이브러리입니다.
– 대기 시간: 요청을 시작하고 응답을 받는 사이에 걸리는 시간 지연입니다.
– 대역폭: 특정 경로나 네트워크를 통해 전송되는 데이터의 최대 전송 속도입니다.
– Btrfs: Linux용 Copy-on-Write 파일 시스템으로, 스냅샷, 서브볼륨, 압축 및 확장성과 같은 기능을 제공합니다.

관련 링크:
– 분산 반응형 프로그래밍
– 아마존 기계 학습
– 효율적인 분산 기계 학습: 단일 노드의 관점

The source of the article is from the blog qhubo.com.ni