Neckband, lokalnie, dwujęzycznie

HearSense

Dźwięk, który widać.

Napisy na żywo, alerty z poziomami istotności i wibracje na nadgarstku. Cała inferencja działa lokalnie na urządzeniu.

  • ONZ SDG 10
  • WCAG 2.2 AA
  • Lokalnie, bez chmury

Luka informacyjna

Dźwięk to informacja. Większość z niej nie dociera do osób głuchych.

1,5 mld

osób na świecie żyje z ubytkiem słuchu (WHO, 2024).

Aparaty słuchowe wzmacniają. Nie tłumaczą.

Potok

Trzy kroki, jeden ciągły strumień.

1

Słuchaj

Matryca mikrofonów, strumień 16 kHz, bramkowanie VAD.

2

Rozumiej

ASR, klasy dźwięku, prozodia, intencje rozmowy.

3

Pokaż

Napisy, alerty, wzorce wibracji.

Co potrafi

Sześć rzeczy, od początku do końca.

Napisy na żywo

Mowa w czasie rzeczywistym, EN i PL.

Alerty dźwiękowe

527 klas, trzy poziomy istotności.

Krytyczne Powiadomienie Otoczenie

Inteligentne odpowiedzi

Trzy gotowe podpowiedzi do dotknięcia.

Wykrywanie imienia

Słyszy imię w dowolnej odmianie.

Wyczuwa śmiech

Wie, kiedy w pomieszczeniu jest śmiech.

Dwujęzyczne ASR

Jeden model, dwa języki, automatyczne wykrywanie.

Stos technologiczny

Otwarte modele, mierzone na całej drodze.

Każdy model w potoku jest open-source lub odtwarzalny z publikacji naukowej.

ASR NVIDIA Parakeet TDT 0.6B
Klasy dźwięku EfficientAT mn10_as · 527 klas AudioSet
VAD Silero
Prozodia pyin / CREPE
Odpowiedzi Model2Vec (tylko wyszukiwanie)
Środowisko ONNX Runtime · CPU · aarch64

Sprzęt

Trzy zespoły, połączone bezprzewodowo.

Cała inferencja działa lokalnie. Bez chmury.

Jednostka obliczeniowa

Raspberry Pi CM5 (8 GB), czterordzeniowy Cortex-A76. Aktywne chłodzenie dla ciągłej inferencji.

Neckband

Matryca mikrofonów MEMS po I2S, mostek USB Audio Class na RP2040. Przechwyt 32 kHz, redukcja do 16 kHz programowo.

Opaska haptyczna

ESP32-S3 po BLE. Cztery silniki LRA przez DRV2605L. Pięć wzorców istotności, docelowo poniżej 150 ms.

Okulary AR (opcjonalne)

INMO Air3 po WiFi 5 GHz. Napisy w polu widzenia. System działa też bez nich.

Zasilanie i waga

Ogniwo litowo-jonowe 18650. Około 211 g bez okularów. Od 1 do 1,3 h w trybie demo.

Lokalnie, prywatnie

Bez chmury dla kluczowych funkcji. Dźwięk nigdy nie opuszcza urządzenia.

Liczby

Mierzone tam, gdzie to ważne.

Pomiary ze stałego zestawu nagrań referencyjnych dołączonego do repozytorium. Pełne testy z użytkownikami to kolejny etap.

≈ 300 ms
odczuwalne opóźnienie napisów
527
klas dźwięku
10
intencji rozmowy
< 1 ms
wyszukiwanie odpowiedzi

Nasze zobowiązanie

Projektujemy uczciwie, od pierwszego dnia.

To zobowiązania i intencje. Tam, gdzie praca nie została jeszcze wykonana, mówimy to wprost.

01

Tłumaczenie, nie „naprawa”

Nie twierdzimy, że „naprawiamy” głuchotę. Tłumaczymy dźwięk na wzrok i dotyk.

02

Współprojektowanie

Testy z osobami głuchymi i słabosłyszącymi poprzedzają domknięcie technologii, a nie odwrotnie.

03

Dźwięk zostaje lokalnie

Cała inferencja na urządzeniu. Bez chmury, bez wycieku dźwięku poza ciało.

04

Dostępność od początku

WCAG 2.2 AA w urządzeniu i na tej stronie, od pierwszego kroku.

Wpływ

Jeden kanał świata, udostępniony.

SDG 10

Mniej nierówności

Zmniejszamy lukę informacyjną między osobami słyszącymi a głuchymi w tym samym pomieszczeniu.

  • Działa bez telefonu w ręku
  • Dwujęzyczne od pierwszego dnia
  • Otwarty sprzęt, otwarte modele
  • Podstawa: WCAG 2.2 AA