Šiandien pagaliau grįžau dirbti prie savo pirmojo ir kol kas vienintelio ML (Machine Learning) projekto. Kai pradėjau, jis man buvo labai įdomus. Per kelis mėnesius darbo pavyko pasiekti neblogų prognozavimo rezultatų, bet kai priėjau prie jo paleidimo dalies susidūriau su nemažomis problemomis.
Esminė problema buvo ta, kad modelio apmokymui naudojau daug duomenų ir juos ėmiau iš istorinės įvykių lentos. Bet paleidus modelį į „gamybą”, prognozavimui duomenys turės būti imami iš kitos lentos, kurioje yra „einamieji” įvykiai, na ta prasme „Online info”. Šioje lentoje informacijos yra gerokai mažiau, todėl mūsų duombazių specialistai turėjo sukurti man naują lentą prijungdami man reikalingą informaciją.
Kita problema kiek rimtesnė – dalis informacijos prie įvykio atsiranda ne iškarto, o kartais net po kelių dienų. Ir prognozavimo metu jos neturiu, ir negaliu panaudoti iš vis. Tokia info yra dviejuose stulpeliuose ir jie gana svarbūs. Tai šią problemą galiausiai išsprendėme gana paprastai, tiesiog pagal ID susirinkome istorinę info ir panaudojome tuštiems laukams užpildyti paskaičiuodami medianą. Modelio tikslumas dėl to neturėtų labai nukentėti.
Kol kurdamas šitą modelį svarsčiau kaip ir kur čia jį reikės paleisti, PowerBI cloud’as transformavosi į Microsoft Fabric ir tapo visai tinkama vieta ML modeliams deploy’inti. Tai matyt čia, ir reikės jį įkelti. Nes kitur atveju čia irgi būtų nemažas iššūkis tokį sunkų modelį kažkur paleisti. Pamenu, pradžioje su juo dirbant, vos užtekdavo 64 GB RAM mano laptopo atminties 😀