Wyzwanie
Uniwersytet, zaangażowany w tworzenie inkluzywnego środowiska dla swojej zróżnicowanej społeczności studenckiej, zidentyfikował potrzebę przezwyciężenia bariery językowej dla studentów międzynarodowych uczestniczących w wykładach w języku polskim. Istniejąca infrastruktura nie posiadała możliwości tłumaczenia w czasie rzeczywistym, co stwarzało wyzwania dla osób niebędących rodzimymi użytkownikami języka, utrudniając pełne zaangażowanie w materiał kursu i efektywne uczestnictwo w dyskusjach klasowych. Głównym wyzwaniem było opracowanie systemu, który mógłby dokładnie transkrybować i tłumaczyć wykłady w czasie rzeczywistym, z minimalnym opóźnieniem i maksymalną dostępnością, jednocześnie integrując się bezproblemowo z istniejącą konfiguracją AV i infrastrukturą IT uniwersytetu.
Rozwiązanie
Aby sprostać tym wyzwaniom, zaprojektowałem i wdrożyłem nowatorski system tłumaczenia wykładów w czasie rzeczywistym, który łączył najnowocześniejsze technologie rozpoznawania mowy i tłumaczenia maszynowego:
- Zintegrowałem model Whisper ASR od OpenAI do transkrypcji audio w czasie rzeczywistym. Dostosowałem model do specyficznych niuansów polskiego języka akademickiego, optymalizując dokładność transkrypcji i minimalizując błędy w przechwytywaniu mowy.
- Wdrożyłem LibreTranslate, open-source'owy silnik tłumaczenia maszynowego, do tłumaczenia transkrybowanego tekstu polskiego na angielski i inne języki w czasie rzeczywistym. Ta integracja obejmowała konfigurację dedykowanego serwera tłumaczeniowego, optymalizację szybkości i dokładności tłumaczenia oraz zapewnienie wsparcia dla wielu języków docelowych.
- Stworzyłem przyjazny dla użytkownika interfejs internetowy przy użyciu JavaScript z React, który wyświetlał przetłumaczony tekst w czasie rzeczywistym na urządzeniach studentów. Ten interfejs zawierał konfigurowalne rozmiary czcionek, motywy kolorystyczne i opcje wyświetlania, aby dostosować się do indywidualnych preferencji studentów i wymagań dostępności.
- Opracowałem architekturę strumieniową wykorzystującą WebSockets, aby zapewnić dostarczanie przetłumaczonego tekstu z serwera tłumaczeniowego na urządzenia studentów z niskim opóźnieniem. Obejmowało to optymalizację protokołów transferu danych, wdrożenie wydajnych technik kompresji danych i zapewnienie solidnej obsługi błędów dla nieprzerwanej usługi.
- Zaprojektowałem kompleksowy system uwierzytelniania i autoryzacji użytkowników, który pozwalał studentom na bezpieczny dostęp do usługi tłumaczeniowej przy użyciu ich istniejących poświadczeń uniwersyteckich. Ta integracja obejmowała wdrożenie uwierzytelniania OAuth 2.0, kontroli dostępu opartej na rolach i bezpiecznych praktyk przechowywania danych w celu ochrony danych studentów i utrzymania integralności systemu.
Rezultaty
- Znacznie poprawiłem dostępność dla studentów międzynarodowych, umożliwiając im pełne zaangażowanie w treść wykładów i bardziej aktywne uczestnictwo w dyskusjach klasowych, co potwierdzał 40% wzrost wskaźników uczestnictwa wśród osób niebędących rodzimymi użytkownikami języka.
- Zmniejszyłem bariery w nauce związane z językiem, co doprowadziło do 25% poprawy średnich wyników quizów wśród studentów międzynarodowych, demonstrując bardziej efektywne zrozumienie materiału kursu.
- Wzmocniłem reputację uniwersytetu jako inkluzywnego i wspierającego środowiska edukacyjnego, przyciągając bardziej zróżnicowaną pulę międzynarodowych kandydatów i wzmacniając jego pozycję jako lidera w globalnej edukacji.
- Zapewniłem opłacalne rozwiązanie tłumaczeniowe w porównaniu do tradycyjnych usług tłumaczenia ludzkiego, co skutkowało 60% redukcją wydatków na tłumaczenia przy zachowaniu wysokiego poziomu dokładności i dostępności.
- Stworzyłem wysoce skalowalny i adaptowalny system, który może łatwo dostosować się do nowych języków, formatów treści i wymagań dostępności, zapewniając uniwersytetowi możliwość dalszego spełniania ewoluujących potrzeb jego międzynarodowej społeczności studenckiej.
Technologie
Python 3.9 z Whisper od OpenAI do transkrypcji audio, LibreTranslate do tłumaczenia maszynowego, JavaScript z React do rozwoju frontendu, WebSockets do komunikacji w czasie rzeczywistym, Laravel 9 do architektury backendu i Docker do konteneryzacji i wdrażania.