Verbeteren van Efficiëntie en Snelheid in ML/AI Ontwikkeling

In de snel evoluerende wereld van AI/ML ontwikkeling is het van cruciaal belang om infrastructuur te hebben die kan voldoen aan de eisen van ML-engineers. Trage bouwtijden en inefficiënties bij het verpakken en distribueren van uitvoeringsbestanden kunnen de productiviteit belemmeren en kostbare tijd verspillen.

Om deze uitdagingen aan te pakken, heeft ons team proactieve maatregelen genomen om trage builds en inefficiënties bij het verpakken aan te pakken, wat heeft geleid tot aanzienlijke vermindering van overhead en verbeterde efficiëntie.

In plaats van te vertrouwen op verouderde revisies die herhaaldelijk moeten worden herbouwd en gelinkt, hebben we ons gericht op het minimaliseren van heropbouw door de bouwgrafiek te stroomlijnen en afhankelijkheidstellingen te optimaliseren. Deze aanpak heeft de behoefte aan uitgebreide herbouwwerkzaamheden aanzienlijk verminderd en de algehele bouwsnelheid verbeterd.

Een andere belangrijke hindernis waar we mee te maken hadden, was het verpakken en distribueren van uitvoerbare bestanden. Om deze uitdaging te overwinnen, hebben we een incrementele benadering geïmplementeerd met behulp van het Content Addressable Filesystem (CAF). Door een op inhoud gebaseerde benadering te hanteren, slaat CAF op intelligente wijze overtollige uploads over van bestanden die al aanwezig zijn in de op inhoud adresseerbare opslag (CAS). Dit vermindert niet alleen de verpakkingstijd, maar minimaliseert ook de overhead bij het werken met grote uitvoerbare bestanden.

Om de efficiëntie van het CAF-systeem te verbeteren, hebben we een CAS-daemon geïmplementeerd op het merendeel van onze datacenterhosts. Deze daemon is verantwoordelijk voor het bijhouden van lokale caches, het organiseren van een peer-to-peer netwerk met andere CAS-daemon-instanties en het optimaliseren van het ophalen van inhoud. Door gebruik te maken van dit netwerk kunnen we inhoud rechtstreeks ophalen van andere instanties, wat de latentie en opslagbandbreedtecapaciteit vermindert.

In tegenstelling tot traditionele oplossingen op basis van lagen, zoals Docker’s OverlayFS, heeft onze aanpak rechtstreekse toegang tot bestanden en slimme affiniteitsroutering als prioriteit. Dit stelt ons in staat om diverse afhankelijkheden tussen meerdere uitvoerbare bestanden efficiënt te beheren zonder de complexiteit van laagorganisatie. Bovendien maken we gebruik van Btrfs als ons bestandssysteem, waardoor we kunnen profiteren van de compressiemogelijkheden en de mogelijkheid om gecomprimeerde opslaggegevens rechtstreeks naar extenten te schrijven.

Door de uitdagingen van trage builds en inefficiënt verpakken en distribueren van uitvoerbare bestanden aan te pakken, hebben we onze ML-engineers in staat gesteld om efficiënter te werken en baanbrekende oplossingen te leveren. Onze focus op het verminderen van herbouw, het optimaliseren van afhankelijkheidsbeheer en het implementeren van een incrementele verpakkingsoplossing heeft geleid tot aanzienlijke tijdsbesparingen en verbeterde productiviteit in ons AI/ML ontwikkelingsproces.

Veelgestelde vragen:

V: Wat waren de uitdagingen waarmee het team te maken kreeg bij AI/ML-ontwikkeling?
A: De uitdagingen waarmee het team te maken kreeg, waren trage bouwtijden, inefficiënties bij het verpakken en distribueren van uitvoeringsbestanden, en de complexiteit van het beheren van diverse afhankelijkheden tussen meerdere uitvoerbare bestanden.

V: Hoe heeft het team trage builds aangepakt?
A: Het team heeft trage builds aangepakt door de bouwgrafiek te stroomlijnen en afhankelijkheidstellingen te optimaliseren, waardoor de behoefte aan uitgebreid herbouwen werd verminderd en de algehele bouwsnelheid verbeterd.

V: Hoe heeft het team het verpakken en distribueren van uitvoerbare bestanden aangepakt?
A: Het team heeft een incrementele benadering geïmplementeerd met behulp van het Content Addressable Filesystem (CAF) dat overtollige uploads van bestanden die al aanwezig zijn in de op inhoud adresseerbare opslag (CAS) op intelligente wijze overslaat. Dit vermindert de verpakkingstijd en minimaliseert het ophalen van inhoud.

V: Wat is het doel van de CAS-daemon die is ingezet in de datacenterhosts?
A: De CAS-daemon is verantwoordelijk voor het bijhouden van lokale caches, het organiseren van een peer-to-peer netwerk met andere CAS-daemon-instanties en het optimaliseren van het ophalen van inhoud. Het maakt rechtstreeks ophalen van inhoud van andere instanties mogelijk, waardoor de latentie en opslagbandbreedtecapaciteit worden verminderd.

V: Hoe beheert het team afhankelijkheden zonder de complexiteit van laagorganisatie?
A: In tegenstelling tot traditionele oplossingen heeft het team rechtstreekse toegang tot bestanden en slimme affiniteitsroutering als prioriteit boven laaggebaseerde oplossingen zoals Docker’s OverlayFS. Deze aanpak maakt efficiënt beheer van diverse afhankelijkheden tussen meerdere uitvoerbare bestanden mogelijk.

V: Welk bestandssysteem gebruikt het team en welke voordelen biedt het?
A: Het team gebruikt Btrfs als hun bestandssysteem, dat compressiemogelijkheden biedt en de mogelijkheid om gecomprimeerde opslaggegevens rechtstreeks naar extenten te schrijven. Dit verbetert de efficiëntie en opslagmogelijkheden.

Definities:

– AI/ML: Staat voor Artificial Intelligence/Machine Learning en verwijst naar de ontwikkeling en toepassing van algoritmen en modellen die computers in staat stellen taken uit te voeren zonder expliciete instructies.
– ML-engineers: Verwijst naar engineers die gespecialiseerd zijn in Machine Learning en ML-algoritmen en -modellen ontwikkelen, implementeren en optimaliseren.
– Herbouwen: Het proces van het opnieuw opbouwen of herbouwen van software of code.
– Verpakken: Het proces van het gereedmaken van software voor distributie door het bundelen ervan met relevante bestanden en afhankelijkheden.
– Content Addressable Filesystem (CAF): Een bestandssysteem dat bestanden identificeert op basis van hun inhoud in plaats van hun locatie of naam, waardoor efficiënte opslag en ophalen mogelijk is.
– Content Addressable Storage (CAS): Een opslagsysteem waarin inhoud wordt gerefereerd en geïdentificeerd met unieke identificatoren, wat deduplicatie en efficiënt ophalen van gegevens mogelijk maakt.
– Afhankelijkheid: Een softwarecomponent of -bibliotheek waarop een andere software vertrouwt om correct uitgevoerd te kunnen worden.
– Latentie: De vertragingstijd tussen het initiëren van een verzoek en het ontvangen van een reactie.
– Bandbreedte: De maximale gegevensoverdrachtssnelheid via een bepaald pad of netwerk.
– Btrfs: Een copy-on-write bestandssysteem voor Linux dat functies biedt zoals snapshots, subvolumes, compressie en schaalbaarheid.

Gerelateerde links:
– Gedistribueerde Reactieve Programmering
– Amazon Machine Learning
– Efficiënte Gedistribueerde Machine Learning: Vanuit een Enkelknooppunt Perspectief

The source of the article is from the blog girabetim.com.br