My, BEST i fuzzy matching

 

Cześć !!!

Mamy przyjemność poinformować, że niedawno została zakończona praca nad projektem „Fuzzy matching polskich adresów pocztowych”, realizowanego we współpracy członków naszego koła oraz firmy Best S.A. 😊

 

Na czym polegał projekt?

Dane (w szczególności adresy pocztowe) podawane przez klientów często różnią się od prawidłowych. Występowanie literówek bądź braki elementów adresu to najczęściej występujące błedy, które jednocześnie są kluczowymi informacjami dla firmy! Członkowie naszego koła zostali zaangażowani do stworzenia narzędzia, które będzie w stanie pomóc w walce z tym problemem.

 

 

Co zrobiliśmy?👈👈

  • Research dotyczący metod naprawiania błędów w łańcuchach znaków (fuzzy matching łańcuchów znaków oparty na metrykach Levenshteina, LCS, Jaro-Winklera etc.),
  • Analizę częstotliwości występowania różnych typów błędów w próbce potencjalnie błędnych adresów,
  • Skrypt w języku R, którego zadaniem jest automatyczna naprawa błędów w bazie danych zawierającej adresy.

Co zyskaliśmy?

  • Umiejętność wykorzystania wielu metod w zakresie eksploracji tekstu,
  • Wysoką skuteczność algorytmu,
  • Nieocenione doświadczenie pracy w grupie jak i dla firmy.

 

Z dumą pozdrawiamy i zapraszamy was do śledzenia naszej strony internetowej jak również profilu na facebooku.

Do zobaczenia !👊

 

Galeria zdjęć