Повишаване на ефективността и скоростта на развитието в ML/AI

В бързооборотния свят на разработката на изкуствен интелект и машинно самообучение е от съществено значение да разполагате с инфраструктура, която може да отговори на изискванията на инженерите в областта на машинното самообучение. Бавните времена за изграждане и неефективността при опаковането и разпространението на изпълними файлове могат да създадат пречки за продуктивността и да изгубят ценно време.

За да се справим с тези предизвикателства, нашият екип взе предварителни мерки, за да се справи с бавното изграждане и неефективността при опаковането, което доведе до значително намаление на излишните разходи и повишена ефективност.

Вместо да се основаваме на остарели редакции, които изискват повтарящо се изграждане и свързване, ние се фокусирахме върху минимизирането на вътрешното изграждане, като оптимизирахме графика на изграждане и броя на зависимостите. Този подход значително намали нуждата от широкообхватно изграждане и подобри общата скорост на изграждане.

Още един голям проблем, с който се сблъскахме, беше опаковането и разпространението на изпълними файлове. За да преодолеем този предизвикателство, въведохме инкрементален подход, използвайки Content Addressable Filesystem (CAF). Чрез въвеждане на осведомен подход, CAF интелигентно пропуска излишното качване на вече присъстващи файлове в адресируемото за съдържание хранилище (CAS). Това не само намалява времето за опаковане, но и намалява времето за изтегляне при работа с големи изпълними файлове.

За да подобрим ефективността на CAF системата, разположихме CAS демон в мнозинството от хостовете в нашия център за данни. Този демон е отговорен за поддържане на локални кешове, организиране на P2P мрежа с други инстанции на CAS демони и оптимизиране на изтеглянето на съдържанието. Чрез използване на тази мрежа можем директно да изтегляме съдържанието от други инстанции, което намалява задержката и капацитета на съхранение за изпълнимите файлове.

За разлика от традиционните решения, базирани на слоеве, като Docker’s OverlayFS, нашият подход отдава приоритет на директен достъп до файловете и интелигентно определяне на маршрутите. Това ни позволява ефективно да управляваме разнообразни зависимости върху множество изпълними файлове, без сложността на организацията на слоевете. Освен това, чрез използването на Btrfs като файлова система, се възползваме от неговите възможности за компресия и способността му да пише компресирани данни за съхранение директно на разширенията.

Като се заемем с предизвикателствата на бавното изграждане и неефективното опаковане и разпространение на изпълнимите файлове, ние ни паршем нашите инженери в областта на машинното самообучение да работят по-ефективно и да представят новаторски решения. Нашата насоченост към намаляване на вътрешното изграждане, оптимизация на управлението на зависимостите и въвеждане на инкрементално опаковане доведе до значително спестяване на време и повишена продуктивност в процеса на разработка на AI/ML.

Често задавани въпроси:

В: Какви бяха предизвикателствата, пред които екипът се изправи в разработката на AI/ML?
О: Предизвикателствата, пред които екипът се изправи, включваха бавните времена за изграждане, неефективността при опаковането и разпространението на изпълними файлове и сложностите при управлението на разнообразни зависимости върху множество изпълними файлове.

В: Как екипът се справи с бавното изграждане?
О: Екипът се справи с бавното изграждане, като оптимизира графика на изграждане и броя на зависимостите, което намали нуждата от широкообхватно изграждане и подобри общата скорост на изграждане.

В: Как екипът се справи с опаковането и разпространението на изпълними файлове?
О: Екипът въведе инкрементален подход, използвайки Content Addressable Filesystem (CAF), който интелигентно пропуска излишното качване на вече присъстващи файлове в адресируемото за съдържание хранилище (CAS). Това намалява времето за опаковане и изтегляне.

В: Каква е целта на разположения в центъра за данни CAS демон?
О: CAS демонът е отговорен за поддържането на локални кешове, организирането на P2P мрежа с други инстанции на CAS демоните и оптимизирането на изтеглянето на съдържанието. Това позволява директно изтегляне на съдържание от други инстанции, намалявайки задержката и капацитета на съхранение.

В: Как екипът управлява зависимостите без сложността на организацията на слоевете?
О: За разлика от традиционните решения, екипът отдава приоритет на директния достъп до файловете и интелигентното определяне на маршрутите, вместо на решенията, базирани на слоеве, като Docker’s OverlayFS. Този подход позволява ефективно управление на разнообразни зависимости върху множество изпълними файлове.

В: Каква файлова система използва екипът и какви предимства предлага?
О: Екипът използва Btrfs като своя файлова система, която предоставя възможности за компресия и способността да пише компресирани данни за съхранение директно на разширенията. Това подобрява ефективността и възможностите за съхранение.

Допълнителни връзки:
– Distributed Reactive Programming
– Amazon Machine Learning
– Efficient Distributed Machine Learning: A Single Node Perspective

The source of the article is from the blog guambia.com.uy