Spojrzenie zza kulis na budowę opartego na AI systemu sortowania atrybutów dla milionów SKU.Spojrzenie zza kulis na budowę opartego na AI systemu sortowania atrybutów dla milionów SKU.

Jak wykorzystałem AI do naprawienia niespójnych wartości atrybutów na dużą skalę w e-commerce

2025/12/25 12:53

Kiedy ludzie mówią o skalowaniu e-commerce, koncentrują się na dużych wyzwaniach inżynieryjnych: rozproszonym wyszukiwaniu, zapasach w czasie rzeczywistym, silnikach rekomendacji i optymalizacji procesu płatności. Ale pod tym wszystkim kryje się cichszy, bardziej trwały problem, z którym zmaga się prawie każdy sprzedawca: wartości atrybutów.

Atrybuty są kręgosłupem odkrywania produktów. Napędzają filtry, porównania, ranking wyszukiwania i logikę rekomendacji. Ale w prawdziwych katalogach wartości atrybutów rzadko są czyste. Są niespójne, zduplikowane, źle sformatowane lub semantycznie niejednoznaczne.

Weźmy coś tak prostego jak Rozmiar. Możesz zobaczyć:

Kod

["XL", "Small", "12cm", "Large", "M", "S"]

Lub Kolor:

Kod

["RAL 3020", "Crimson", "Red", "Dark Red"]

Pojedynczo te niespójności wyglądają nieszkodliwie. Ale pomnóż je przez ponad 3 miliony SKU, każde z dziesiątkami atrybutów, a problem staje się systemowy. Filtry zachowują się nieprzewidywalnie, wyszukiwarki tracą trafność, merchandiserzy toną w ręcznym porządkowaniu, a odkrywanie produktów staje się wolniejsze i bardziej frustrujące dla klientów.

To było wyzwanie, przed którym stanąłem jako inżynier oprogramowania full-stack w Zoro, problem, który łatwo było przeoczyć, ale który wpływał na każdą stronę produktu.

Moje podejście: Hybrydowa AI spotyka determinizm

Nie chciałem tajemniczej czarnej skrzynki AI, która po prostu sortuje rzeczy. Systemy takie są trudne do zaufania, debugowania czy skalowania. Zamiast tego dążyłem do pipeline'u, który był:

  • wytłumaczalny
  • przewidywalny
  • skalowalny
  • kontrolowany przez ludzi

Rezultatem był hybrydowy pipeline AI, który łączy kontekstowe rozumowanie z LLM z jasnymi zasadami i kontrolami merchandiserów. Działa inteligentnie, gdy trzeba, ale zawsze pozostaje przewidywalny. To AI z barierkami ochronnymi, nie AI wymykające się spod kontroli.

Zadania w tle: Zbudowane pod przepustowość

Całe przetwarzanie atrybutów odbywa się w offline'owych zadaniach w tle, nie w czasie rzeczywistym. To nie był kompromis; to był strategiczny wybór architektoniczny.

Pipeline'y w czasie rzeczywistym brzmią atrakcyjnie, ale w skali e-commerce wprowadzają:

  • nieprzewidywalne opóźnienia
  • kruche zależności
  • drogie skoki obliczeniowe
  • kruchość operacyjną

Zadania offline z kolei dały nam:

  • Wysoką przepustowość: ogromne partie przetwarzane bez wpływu na systemy produkcyjne
  • Odporność: awarie nigdy nie wpływały na ruch klientów
  • Kontrolę kosztów: obliczenia mogły być planowane w czasie niskiego ruchu
  • Izolację: opóźnienia LLM nigdy nie wpływały na strony produktów
  • Spójność: aktualizacje były atomowe i przewidywalne

Utrzymywanie systemów obsługujących klientów oddzielnie od pipeline'ów przetwarzania danych jest niezbędne podczas pracy z milionami SKU.

Czyszczenie i normalizacja

Przed użyciem AI na danych przeprowadziłem wyraźny krok wstępnego przetwarzania, aby usunąć szum i zamieszanie. Ten krok może brzmieć prosto, ale znacznie poprawił rozumowanie LLM.

Pipeline czyszczenia obejmował:

  • usuwanie białych znaków
  • usuwanie pustych wartości
  • deduplikację wartości
  • spłaszczanie ścieżek nawigacyjnych kategorii w kontekstowy ciąg

To zapewniło, że LLM otrzymał czysty, jasny input, co jest kluczem do spójnych wyników. Śmieci na wejściu, śmieci na wyjściu. W tej skali nawet małe błędy mogą prowadzić do większych problemów później.

Usługa LLM z kontekstem

LLM nie tylko sortował wartości alfabetycznie. Rozumował o nich.

Usługa otrzymywała:

  • wyczyszczone wartości atrybutów
  • ścieżki nawigacyjne kategorii
  • metadane atrybutów

Z tym kontekstem model mógł zrozumieć:

  • Że "Napięcie" w Narzędziach elektrycznych jest numeryczne
  • że "Rozmiar" w Odzieży podąża za znaną progresją
  • że "Kolor" w Farbach może podążać za standardami RAL
  • że "Materiał" w Hardware ma relacje semantyczne

Model zwracał:

  • uporządkowane wartości
  • udoskonalone nazwy atrybutów
  • decyzję: deterministyczne lub kontekstowe uporządkowanie

To pozwala pipeline'owi obsługiwać różne typy atrybutów bez kodowania na stałe zasad dla każdej kategorii.

Deterministyczne zastępstwa

Nie każdy atrybut potrzebuje AI.

W rzeczywistości wiele atrybutów jest lepiej obsługiwanych przez logikę deterministyczną.

Zakresy numeryczne, wartości oparte na jednostkach i proste zestawy często korzystają z:

  • szybszego przetwarzania
  • przewidywalnego uporządkowania
  • niższego kosztu
  • zerowej niejednoznaczności

Pipeline automatycznie wykrywał te przypadki i używał dla nich logiki deterministycznej. To utrzymywało system wydajnym i unikało niepotrzebnych wywołań LLM.

Tagowanie manualne vs LLM

Merchandiserzy wciąż potrzebowali kontroli, szczególnie dla atrybutów wrażliwych biznesowo.

Więc każda kategoria mogła być oznaczona jako:

  • LLM_SORT — niech model zdecyduje
  • MANUAL_SORT — merchandiserzy definiują kolejność

Ten system podwójnego tagowania pozwala ludziom podejmować ostateczne decyzje, podczas gdy AI wykonywała większość pracy. Budował również zaufanie, ponieważ merchandiserzy mogli przesłonić model, gdy było to potrzebne, bez psowania pipeline'u.

Trwałość i kontrola

Wszystkie wyniki były przechowywane bezpośrednio w bazie danych Product MongoDB, utrzymując architekturę prostą i scentralizowaną.

MongoDB stało się pojedynczym magazynem operacyjnym dla:

  • posortowanych wartości atrybutów
  • udoskonalonych nazw atrybutów
  • tagów sortowania na poziomie kategorii
  • pól sortOrder na poziomie produktu

To ułatwiło przeglądanie zmian, nadpisywanie wartości, ponowne przetwarzanie kategorii i synchronizację z innymi systemami.

Integracja z wyszukiwaniem

Po posortowaniu wartości trafiały do:

  • Elasticsearch dla wyszukiwania opartego na słowach kluczowych
  • Vespa dla wyszukiwania semantycznego i opartego na wektorach

To zapewniło, że:

  • filtry pojawiały się w logicznej kolejności
  • Strony produktów wyświetlały spójne atrybuty
  • wyszukiwarki rankowały produkty dokładniej
  • Klienci mogli przeglądać kategorie łatwiej

Wyszukiwanie to miejsce, gdzie sortowanie atrybutów jest najbardziej widoczne i gdzie spójność ma największe znaczenie.

Przegląd architektury

Aby to działało dla milionów SKU, zaprojektowałem modułowy pipeline zbudowany wokół zadań w tle, rozumowania AI i integracji z wyszukiwaniem. Poniższy diagram architektury przedstawia pełny przepływ:

  • Dane produktu wchodzą z systemu informacji o produktach
  • Zadanie ekstrakcji atrybutów pobiera wartości atrybutów i kontekst kategorii
  • Są one przekazywane do usługi sortowania AI
  • Zaktualizowane dokumenty produktów są zapisywane do Product MongoDB
  • Zadanie synchronizacji wychodzące aktualizuje system informacji o produktach o kolejność sortowania
  • Zadania synchronizacji Elasticsearch i Vespa przesyłają posortowane dane do odpowiednich systemów wyszukiwania
  • Usługi API łączą Elasticsearch i Vespa z aplikacją kliencką

Ten przepływ zapewnia, że każda wartość atrybutu, czy posortowana przez AI, czy ustawiona ręcznie, jest odzwierciedlona w wyszukiwaniu, merchandisingu i doświadczeniu klienta.

Rozwiązanie w akcji

Oto jak chaotyczne wartości zostały przekształcone:

| Atrybut | Surowe wartości | Uporządkowane wyjście | |----|----|----| | Rozmiar | XL, Small, 12cm, Large, M, S | Small, M, Large, XL, 12cm | | Kolor | RAL 3020, Crimson, Red, Dark Red | Red, Dark Red, Crimson, Red (RAL 3020) | | Materiał | Steel, Carbon Steel, Stainless, Stainless Steel | Steel, Stainless Steel, Carbon Steel | | Numeryczne | 5cm, 12cm, 2cm, 20cm | 2cm, 5cm, 12cm, 20cm |

Te przykłady pokazują, jak pipeline łączy kontekstowe rozumowanie z jasnymi zasadami, aby stworzyć czyste, łatwe do zrozumienia sekwencje.

Dlaczego zadania offline zamiast przetwarzania w czasie rzeczywistym?

Przetwarzanie w czasie rzeczywistym wprowadziłoby:

  • nieprzewidywalne opóźnienia
  • Wyższe koszty obliczeniowe
  • kruche zależności
  • złożoność operacyjną

Zadania offline dały nam:

  • efektywność wsadową
  • asynchroniczne wywołania LLM
  • logikę ponawiania i kolejki błędów
  • okna przeglądu przez ludzi
  • przewidywalne wydatki obliczeniowe

Kompromisem było niewielkie opóźnienie między pozyskaniem danych a wyświetleniem, ale korzyścią była spójność na skalę, co klienci cenią znacznie bardziej.

Wpływ

Wyniki były znaczące:

  • Spójne uporządkowanie atrybutów w ponad 3 milionach SKU
  • Przewidywalne sortowanie numeryczne przez deterministyczne zastępstwa
  • Kontrola merchandiserów poprzez ręczne tagowanie
  • Czystsze strony produktów i bardziej intuicyjne filtry
  • Ulepszona trafność wyszukiwania
  • Wyższe zaufanie klientów i konwersja

To było nie tylko zwycięstwo techniczne; było to również zwycięstwo dla doświadczenia użytkownika i przychodu.

Wnioski

  • Hybrydowe pipeline'y przewyższają czystą AI na skalę. Barierki ochronne są ważne.
  • Kontekst dramatycznie poprawia dokładność LLM
  • Zadania offline są niezbędne dla przepustowości i odporności
  • Mechanizmy ręcznego przesłonięcia budują zaufanie i adopcję
  • Czysty input jest fundamentem niezawodnego wyniku AI

Końcowa myśl

Sortowanie wartości atrybutów brzmi prosto, ale staje się prawdziwym wyzwaniem, gdy trzeba to zrobić dla milionów produktów.

Łącząc inteligencję LLM z jasnymi zasadami i kontrolą merchandiserów, przekształciłem złożony, ukryty problem w czysty, skalowalny system.

To przypomnienie, że niektóre z największych zwycięstw pochodzą z rozwiązywania nudnych problemów, tych, które łatwo przeoczyć, ale które pojawiają się na każdej stronie produktu.

\n \n \n

Okazja rynkowa
Logo Sleepless AI
Cena Sleepless AI(AI)
$0.03831
$0.03831$0.03831
0.00%
USD
Sleepless AI (AI) Wykres Ceny na Żywo
Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z service@support.mexc.com w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.