GiełdaDEX+

Kup Krypto Rynki Spot Futures500X Earn Wydarzenia

Więcej

Spojrzenie zza kulis na budowę opartego na AI systemu sortowania atrybutów dla milionów SKU.Spojrzenie zza kulis na budowę opartego na AI systemu sortowania atrybutów dla milionów SKU.

Jak wykorzystałem AI do naprawienia niespójnych wartości atrybutów na dużą skalę w e-commerce

Autor: Hackernoon

Źródło: Hackernoon

2025/12/25 12:53

Udostępnij

AI$0.03831+3.31%

LOOK$0.02142-7.23%

Kiedy ludzie mówią o skalowaniu e-commerce, koncentrują się na dużych wyzwaniach inżynieryjnych: rozproszonym wyszukiwaniu, zapasach w czasie rzeczywistym, silnikach rekomendacji i optymalizacji procesu płatności. Ale pod tym wszystkim kryje się cichszy, bardziej trwały problem, z którym zmaga się prawie każdy sprzedawca: wartości atrybutów.

Atrybuty są kręgosłupem odkrywania produktów. Napędzają filtry, porównania, ranking wyszukiwania i logikę rekomendacji. Ale w prawdziwych katalogach wartości atrybutów rzadko są czyste. Są niespójne, zduplikowane, źle sformatowane lub semantycznie niejednoznaczne.

Weźmy coś tak prostego jak Rozmiar. Możesz zobaczyć:

Kod

["XL", "Small", "12cm", "Large", "M", "S"]

Lub Kolor:

Kod

["RAL 3020", "Crimson", "Red", "Dark Red"]

Pojedynczo te niespójności wyglądają nieszkodliwie. Ale pomnóż je przez ponad 3 miliony SKU, każde z dziesiątkami atrybutów, a problem staje się systemowy. Filtry zachowują się nieprzewidywalnie, wyszukiwarki tracą trafność, merchandiserzy toną w ręcznym porządkowaniu, a odkrywanie produktów staje się wolniejsze i bardziej frustrujące dla klientów.

To było wyzwanie, przed którym stanąłem jako inżynier oprogramowania full-stack w Zoro, problem, który łatwo było przeoczyć, ale który wpływał na każdą stronę produktu.

Moje podejście: Hybrydowa AI spotyka determinizm

Nie chciałem tajemniczej czarnej skrzynki AI, która po prostu sortuje rzeczy. Systemy takie są trudne do zaufania, debugowania czy skalowania. Zamiast tego dążyłem do pipeline'u, który był:

wytłumaczalny
przewidywalny
skalowalny
kontrolowany przez ludzi

Rezultatem był hybrydowy pipeline AI, który łączy kontekstowe rozumowanie z LLM z jasnymi zasadami i kontrolami merchandiserów. Działa inteligentnie, gdy trzeba, ale zawsze pozostaje przewidywalny. To AI z barierkami ochronnymi, nie AI wymykające się spod kontroli.

Zadania w tle: Zbudowane pod przepustowość

Całe przetwarzanie atrybutów odbywa się w offline'owych zadaniach w tle, nie w czasie rzeczywistym. To nie był kompromis; to był strategiczny wybór architektoniczny.

Pipeline'y w czasie rzeczywistym brzmią atrakcyjnie, ale w skali e-commerce wprowadzają:

nieprzewidywalne opóźnienia
kruche zależności
drogie skoki obliczeniowe
kruchość operacyjną

Zadania offline z kolei dały nam:

Wysoką przepustowość: ogromne partie przetwarzane bez wpływu na systemy produkcyjne
Odporność: awarie nigdy nie wpływały na ruch klientów
Kontrolę kosztów: obliczenia mogły być planowane w czasie niskiego ruchu
Izolację: opóźnienia LLM nigdy nie wpływały na strony produktów
Spójność: aktualizacje były atomowe i przewidywalne

Utrzymywanie systemów obsługujących klientów oddzielnie od pipeline'ów przetwarzania danych jest niezbędne podczas pracy z milionami SKU.

Czyszczenie i normalizacja

Przed użyciem AI na danych przeprowadziłem wyraźny krok wstępnego przetwarzania, aby usunąć szum i zamieszanie. Ten krok może brzmieć prosto, ale znacznie poprawił rozumowanie LLM.

Pipeline czyszczenia obejmował:

usuwanie białych znaków
usuwanie pustych wartości
deduplikację wartości
spłaszczanie ścieżek nawigacyjnych kategorii w kontekstowy ciąg

To zapewniło, że LLM otrzymał czysty, jasny input, co jest kluczem do spójnych wyników. Śmieci na wejściu, śmieci na wyjściu. W tej skali nawet małe błędy mogą prowadzić do większych problemów później.

Usługa LLM z kontekstem

LLM nie tylko sortował wartości alfabetycznie. Rozumował o nich.

Usługa otrzymywała:

wyczyszczone wartości atrybutów
ścieżki nawigacyjne kategorii
metadane atrybutów

Z tym kontekstem model mógł zrozumieć:

Że "Napięcie" w Narzędziach elektrycznych jest numeryczne
że "Rozmiar" w Odzieży podąża za znaną progresją
że "Kolor" w Farbach może podążać za standardami RAL
że "Materiał" w Hardware ma relacje semantyczne

Model zwracał:

uporządkowane wartości
udoskonalone nazwy atrybutów
decyzję: deterministyczne lub kontekstowe uporządkowanie

To pozwala pipeline'owi obsługiwać różne typy atrybutów bez kodowania na stałe zasad dla każdej kategorii.

Deterministyczne zastępstwa

Nie każdy atrybut potrzebuje AI.

W rzeczywistości wiele atrybutów jest lepiej obsługiwanych przez logikę deterministyczną.

Zakresy numeryczne, wartości oparte na jednostkach i proste zestawy często korzystają z:

szybszego przetwarzania
przewidywalnego uporządkowania
niższego kosztu
zerowej niejednoznaczności

Pipeline automatycznie wykrywał te przypadki i używał dla nich logiki deterministycznej. To utrzymywało system wydajnym i unikało niepotrzebnych wywołań LLM.

Tagowanie manualne vs LLM

Merchandiserzy wciąż potrzebowali kontroli, szczególnie dla atrybutów wrażliwych biznesowo.

Więc każda kategoria mogła być oznaczona jako:

LLM_SORT — niech model zdecyduje
MANUAL_SORT — merchandiserzy definiują kolejność

Ten system podwójnego tagowania pozwala ludziom podejmować ostateczne decyzje, podczas gdy AI wykonywała większość pracy. Budował również zaufanie, ponieważ merchandiserzy mogli przesłonić model, gdy było to potrzebne, bez psowania pipeline'u.

Trwałość i kontrola

Wszystkie wyniki były przechowywane bezpośrednio w bazie danych Product MongoDB, utrzymując architekturę prostą i scentralizowaną.

MongoDB stało się pojedynczym magazynem operacyjnym dla:

posortowanych wartości atrybutów
udoskonalonych nazw atrybutów
tagów sortowania na poziomie kategorii
pól sortOrder na poziomie produktu

To ułatwiło przeglądanie zmian, nadpisywanie wartości, ponowne przetwarzanie kategorii i synchronizację z innymi systemami.

Integracja z wyszukiwaniem

Po posortowaniu wartości trafiały do:

Elasticsearch dla wyszukiwania opartego na słowach kluczowych
Vespa dla wyszukiwania semantycznego i opartego na wektorach

To zapewniło, że:

filtry pojawiały się w logicznej kolejności
Strony produktów wyświetlały spójne atrybuty
wyszukiwarki rankowały produkty dokładniej
Klienci mogli przeglądać kategorie łatwiej

Wyszukiwanie to miejsce, gdzie sortowanie atrybutów jest najbardziej widoczne i gdzie spójność ma największe znaczenie.

Przegląd architektury

Aby to działało dla milionów SKU, zaprojektowałem modułowy pipeline zbudowany wokół zadań w tle, rozumowania AI i integracji z wyszukiwaniem. Poniższy diagram architektury przedstawia pełny przepływ:

Dane produktu wchodzą z systemu informacji o produktach
Zadanie ekstrakcji atrybutów pobiera wartości atrybutów i kontekst kategorii
Są one przekazywane do usługi sortowania AI
Zaktualizowane dokumenty produktów są zapisywane do Product MongoDB
Zadanie synchronizacji wychodzące aktualizuje system informacji o produktach o kolejność sortowania
Zadania synchronizacji Elasticsearch i Vespa przesyłają posortowane dane do odpowiednich systemów wyszukiwania
Usługi API łączą Elasticsearch i Vespa z aplikacją kliencką

Ten przepływ zapewnia, że każda wartość atrybutu, czy posortowana przez AI, czy ustawiona ręcznie, jest odzwierciedlona w wyszukiwaniu, merchandisingu i doświadczeniu klienta.

Rozwiązanie w akcji

Oto jak chaotyczne wartości zostały przekształcone:

| Atrybut | Surowe wartości | Uporządkowane wyjście | |----|----|----| | Rozmiar | XL, Small, 12cm, Large, M, S | Small, M, Large, XL, 12cm | | Kolor | RAL 3020, Crimson, Red, Dark Red | Red, Dark Red, Crimson, Red (RAL 3020) | | Materiał | Steel, Carbon Steel, Stainless, Stainless Steel | Steel, Stainless Steel, Carbon Steel | | Numeryczne | 5cm, 12cm, 2cm, 20cm | 2cm, 5cm, 12cm, 20cm |

Te przykłady pokazują, jak pipeline łączy kontekstowe rozumowanie z jasnymi zasadami, aby stworzyć czyste, łatwe do zrozumienia sekwencje.

Dlaczego zadania offline zamiast przetwarzania w czasie rzeczywistym?

Przetwarzanie w czasie rzeczywistym wprowadziłoby:

nieprzewidywalne opóźnienia
Wyższe koszty obliczeniowe
kruche zależności
złożoność operacyjną

Zadania offline dały nam:

efektywność wsadową
asynchroniczne wywołania LLM
logikę ponawiania i kolejki błędów
okna przeglądu przez ludzi
przewidywalne wydatki obliczeniowe

Kompromisem było niewielkie opóźnienie między pozyskaniem danych a wyświetleniem, ale korzyścią była spójność na skalę, co klienci cenią znacznie bardziej.

Wpływ

Wyniki były znaczące:

Spójne uporządkowanie atrybutów w ponad 3 milionach SKU
Przewidywalne sortowanie numeryczne przez deterministyczne zastępstwa
Kontrola merchandiserów poprzez ręczne tagowanie
Czystsze strony produktów i bardziej intuicyjne filtry
Ulepszona trafność wyszukiwania
Wyższe zaufanie klientów i konwersja

To było nie tylko zwycięstwo techniczne; było to również zwycięstwo dla doświadczenia użytkownika i przychodu.

Wnioski

Hybrydowe pipeline'y przewyższają czystą AI na skalę. Barierki ochronne są ważne.
Kontekst dramatycznie poprawia dokładność LLM
Zadania offline są niezbędne dla przepustowości i odporności
Mechanizmy ręcznego przesłonięcia budują zaufanie i adopcję
Czysty input jest fundamentem niezawodnego wyniku AI

Końcowa myśl

Sortowanie wartości atrybutów brzmi prosto, ale staje się prawdziwym wyzwaniem, gdy trzeba to zrobić dla milionów produktów.

Łącząc inteligencję LLM z jasnymi zasadami i kontrolą merchandiserów, przekształciłem złożony, ukryty problem w czysty, skalowalny system.

To przypomnienie, że niektóre z największych zwycięstw pochodzą z rozwiązywania nudnych problemów, tych, które łatwo przeoczyć, ale które pojawiają się na każdej stronie produktu.

\n \n \n

Okazja rynkowa

Cena Sleepless AI(AI)

$0.03831

$0.03831$0.03831

0.00%

USD

Sleepless AI (AI) Wykres Ceny na Żywo

Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z service@support.mexc.com w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.