CzłowiekEkologiaNatura

Robot, który naśladuje naturę

W żywych organizmach procesy sensoryczne i motoryczne są rozproszone, lokalnie łączone i zdolne do tworzenia dynamicznych asocjacji sensomotorycznych. Przedstawiamy prosty i wydajny organiczny obwód neuromorficzny do lokalnego łączenia i przetwarzania sensomotorycznego w robocie umieszczonym w labiryncie. Podczas gdy robot jest wystawiony na zewnętrzne bodźce środowiskowe, na adaptowalnym obwodzie neuromorficznym tworzą się w asocjacje wzrokowo-ruchowe.

Dzięki integracji sensomotorycznej na chipie, robot uczy się podążać ścieżką do wyjścia z labiryntu, będąc jednocześnie prowadzonym przez wizualnie wskazane ścieżki. Łatwość przetwarzania organicznej elektroniki neuromorficznej i jej niekonwencjonalne czynniki kształtu, w połączeniu z robotyką edukacyjną, pokazują obiecujące podejście niedrogiej, wszechstronnej i łatwo dostępnej platformy do badania, projektowania i oceny inteligencji behawioralnej poprzez zdecentralizowaną integrację sensomotoryczną.

We wszystkich żywych organizmach układy sensoryczne i motoryczne koordynują się ze sobą, tworząc zjednoczoną całość. W tej integracji sensomotorycznej przetwarzanie zmysłów w systemie sensorycznym zachodzi łącznie z zachowaniami motorycznymi, podczas gdy jednocześnie działania motoryczne są pod ciągłym kierownictwem sensorycznym.

Na przykład kierunek działania na zmysł może wystąpić w widzeniu (ruchy ciała lub sakkadowe ruchy gałek ocznych w celu aktywnej wizualizacji otoczenia) oraz w węchu (aktywne pobieranie próbek z wąchaniem w celu wyczuwania zapachu. W przeciwnym kierunku zmysłu do działania bodźce czuciowe wyzwalają działania motoryczne, np. obecność obiektu w polu widzenia inicjuje i kieruje ruchem. Nawet proste organizmy bezkręgowców, takie jak owady (np. muszki owocowe, szarańcza itp.), których obwody neuronalne można łatwo wyśledzić, wykazują repertuar inteligentnych zachowań dzięki integracji sensomotorycznej.

Te zachowania są albo ustalone na stałe i predefiniowane (podobne do odruchów), albo wyuczone jako skojarzenia sensomotoryczne, które są zależne od kontekstu. Bardziej złożone zachowania i uczenie się opierają się na odruchach niskiego poziomu i skojarzeniach sensomotorycznych. Uproszczoną mechanistyczną, ale wnikliwą wersję integracji sensomotorycznej zaproponował Braitenberg, z pojazdami jako metaforą. W tych hipotetycznych pojazdach prymitywne formy inteligencji, które można znaleźć u gatunków niskiego poziomu, takie jak zachowania eksploracyjne, unikania i ucieczki, pojawiają się poprzez sprzężenie sygnałów zmysłowych i poleceń motorycznych poprzez połączenia pobudzające/hamujące i ipsilateralne/kontralateralne.

Oprócz tego sprzężenia przewodowego, uczenie się behawioralne jest promowane przez adaptowalne połączenia czuciowo-motoryczne, tworząc w ten sposób skojarzenia sensomotoryczne, które reprezentują prosty i uogólniony mechanizm powstawania behawioralnego. Chociaż koncepcyjnie prymitywne, pojazdy te stanowią znaczącą platformę do opracowywania i oceny obwodów neuromorficznych do uczenia się procesów sensomotorycznych i zadań behawioralnych w robotyce, a także do wydajnego energetycznie i rozproszonego przetwarzania/przetwarzania danych.

Obliczenia neuronalne mogą być bezpośrednio emulowane w domenie analogowo-cyfrowej w obwodach neuromorficznych, zapewniając w ten sposób komunikację w czasie rzeczywistym między światem analogowym, do którego ma dostęp system sensomotoryczny a jednostkami cyfrowymi platform robotycznych.

Niemniej jednak te obwody neuromorficzne są zwykle na dużą skalę i wdrażane w niestandardowych systemach robotycznych. Na przykład oparty na krzemie silnik SpiNNaker, który został wykorzystany do uczenia sensomotorycznego, składa się z 48 chipów i 18 procesorów na chip.

Pomimo godnych uwagi demonstracji dużej złożoności, perspektywa przetwarzania w materii może dostarczyć eleganckich i uproszczonych rozwiązań w robotyce. Na przykład powstające materiały i urządzenia mają nowe właściwości i mogą odblokować funkcje obwodów nieosiągalne przez konwencjonalną elektronikę, ponieważ są w stanie naśladować bezpośrednio bioinspirowane i bioistotne funkcje, takie jak plastyczność synaptyczna, funkcje neuronalne, homeostaza i zdolność samoleczenia, bez potrzeby złożone obwody.

Co więcej, mechanika ucieleśnienia (tj. ciała fizycznego) ma kluczowe znaczenie w robotyce, na przykład wykorzystanie bezwładności do wydajnego energetycznie poruszania się i adaptacji morfologicznej do poruszania się w nieustrukturyzowanych lub złożonych środowiskach.

Obwody neuromorficzne na małą skalę (tj. proste i składające się z ograniczonych elementów) służące do kontroli sensomotorycznej i optymalizacji maksymalnej prostoty mają zatem ogromne znaczenie dla zrozumienia fundamentalnych relacji między układami sensorycznymi i motorycznymi. Dopiero niedawno obwody neuromorficzne na małą skalę oparte na urządzeniach neuromorficznych z tlenkami metali zostały wykorzystane do lokalnych obliczeń i sterowania w systemach robotycznych. Poprawiona równowaga z niskimi opóźnieniami i zachowaniem adaptacyjnym w robotyce mobilnej została osiągnięta dzięki adaptacyjnym filtrom i macierzom opartym na memrystorach.

Sterowanie ramieniem robota, które jest odporne na uszkodzenia, zostało również zademonstrowane w przypadku tranzystorów z tlenków metali. Niemniej jednak w powyższych przypadkach uczenie odbywa się albo w trybie offline albo poza pętlą sensomotoryczną, a implementacja wymaga wielu konwencjonalnych komponentów krzemowych

Organiczne materiały elektroniczne pojawiły się niedawno w elektronice neuromorficznej ze względu na doskonałą możliwość strojenia, wysoką stabilność i pracę przy niskim napięciu i małej mocy. Materiały organiczne są miękkie, można je przetwarzać w roztworze lub drukować przy stosunkowo niskim budżecie termicznym i można je integrować na podłożach o dużej powierzchni, sztywnych lub konformalnych.

Elastyczny i biokompatybilny charakter oraz mieszane przewodnictwo jonowo-elektroniczne polimerów półprzewodnikowych pozwalają również na ulepszone połączenia z systemami biologicznymi i biohybrydowymi. Pomimo tych godnych uwagi demonstracji, organiczne obwody neuromorficzne zostały jak dotąd ocenione tylko pod kątem ich zdolności do trenowania i adaptacji w zastosowaniach stacjonarnych, takich jak sztuczne sieci neuronowe na małą skalę, bramki logiczne i czujniki, wszystkie systemy, które postrzegają zewnętrzne bodźce bez kontekstu behawioralnego i wyniku.

Jednak budowanie i ocena inteligentnych systemów wymaga holistycznego podejścia z ucieleśnieniem, z agentami, które wykonują działania w celu eksploracji środowiska i postrzegania w czasie rzeczywistym odpowiednich konsekwencji. Tworzenie skojarzeń sensomotorycznych w lokalnie wytrenowanych organicznych obwodach neuromorficznych z łatwością wytwarzania i niekonwencjonalnymi czynnikami kształtu (tj. przetwarzalne rozwiązanie, drukowalne, integracja dużego obszaru i zgodność mechaniczna) może prowadzić do zoptymalizowanych systemów ze zdecentralizowanym/rozproszonym uczeniem się „na krawędzi” i zmniejszone opóźnienia w komunikacji (dzięki integracji dużego obszaru w elastycznych/rozciągliwych podłożach), odporność na awarie dzięki nadmiarowości lub samonaprawianiu (dzięki integracji dużego obszaru i zdolności do samonaprawy), wszechstronność i niskie zużycie energii (dzięki niskiemu napięciu operacja).

W tej pracy wprowadzamy integrację sensomotoryczną i lokalne uczenie się w docelowym zadaniu behawioralnym, które wymaga mobilności, którą umożliwia prosty i niskonapięciowy organiczny obwód neuromorficzny. Samodzielny robot uczy się nawigować w dwuwymiarowym labiryncie, podążając zaplanowaną ścieżką, po wytrenowaniu swojego organicznego obwodu neuromorficznego z bezpośrednimi informacjami zwrotnymi w czasie rzeczywistym z układu sensomotorycznego (ryc. 1A).

Poprzez uczenie się online w pętli sensomotorycznej, organiczny obwód neuromorficzny ustanawia powiązanie między jednostkami sensorycznymi i motorycznymi robota. To powiązanie jest niezbędne do wykonania zadania nawigacyjnego. Konkretne działania motoryczne są wyzwalane przez bodźce wzrokowe, które pełnią funkcję wskazówek nawigacyjnych.

Ta integracja sensomotoryczna, która odbywa się lokalnie i w domenie analogowej, prowadzi robota do wyjścia. Robot, jego czujniki/siłowniki oraz obwód neuromorficzny są zasilane bateryjnie i działają autonomicznie. Prace pokazują zastosowanie organicznej elektroniki neuromorficznej jako lokalnych i zdecentralizowanych obwodów uczenia się do zastosowań mobilnych w środowiskach z ograniczeniami energetycznymi.


Ryc. 1. Robot do planowania ścieżki z organicznym obwodem neuromorficznym do integracji sensomotorycznej. (A) Autonomiczny robot stopniowo uczy się nawigować w labiryncie, podążając za wskazówkami nawigacyjnymi do wyjścia. Przetwarzanie i uczenie się w kierunku docelowego zadania osiąga się lokalnie za pomocą organicznego obwodu neuromorficznego. (B) Szczegółowy schemat systemu robotycznego. Statyczna, niskopoziomowa kontrola układu czuciowo-ruchowego realizowana jest przez jednostkę centralną w domenie cyfrowej. Układ sensomotoryczny i organiczny obwód neuromorficzny działają w domenie analogowej, a pomiędzy jednostką sterującą (domena cyfrowa) a układem sensomotorycznym/obwodem neuromorficznym (domena analogowa) powstaje pętla sensomotoryczna w czasie rzeczywistym. Obwód neuromorficzny składa się z organicznych tranzystorów synaptycznych: urządzenia lotnego (OECT) i nieulotnego (MEM). Podczas pracy w pętli obwód neuromorficzny odbiera optomechaniczne sygnały sensoryczne (na bramkach urządzeń GOECT i GMEM), aby postrzegać (dostosowywać) (do) bodźce środowiskowe i wysyła polecenia motoryczne (VM) do siłowników robota w celu lokomocja. Dzięki swojej zdolności do trenowania i adaptacji obwód tworzy skojarzenia sensomotoryczne poprzez trening, które są niezbędne do wykonania zadania docelowego. (C) Na obracanie się robota na skrzyżowaniu labiryntu wpływa niedeterministycznie iw czasie rzeczywistym napięcie wyjściowe VM obwodu neuromorficznego.

WYNIKI

System robotyczny składa się z dwóch części: układu sensomotorycznego wraz z organicznym obwodem neuromorficznym, który działa w domenie analogowej oraz kontrolera robota w domenie cyfrowej (ryc. 1B i ryc. S1); oba systemy działają autonomicznie i lokalnie na robocie.

System robotyczny wyczuwa otoczenie, zbierając sygnały optyczne i mechaniczne za pomocą czujników odbicia i dotyku, jednocześnie poruszając się w quasi-dwuwymiarowym labiryncie za pomocą dwóch serwomotorów (lewego i prawego). Labirynt składa się z czarnych linii, sześciokątnych komórek elementarnych ułożonych we wzór przypominający plaster miodu.

Cyfrowa jednostka sterująca robota, klocek LEGO MINDSTORMS EV3 (38), optycznie śledzi wyłożony labirynt za pomocą współczynnika odbicia i przekazuje polecenia uruchomienia do silników. Jednostka cyfrowa jest sterowana przez statyczny algorytm śledzenia linii niskiego poziomu (tj. stereotypową, podobną do odruchu reakcję behawioralną), który zapewnia, że ​​robot pozostaje na prostych torach labiryntu między skrzyżowaniami.

Polecenia motoryczne są w sposób ciągły napędzane przez optomechaniczne sygnały sensoryczne (tj. z czujników odbicia i dotyku), podczas gdy jednocześnie działania motoryczne modulują procesy sensoryczne. W ten sposób powstaje pętla sensomotoryczna czasu rzeczywistego. Analogowy i trenowalny obwód neuromorficzny interweniuje lokalnie w pętli i zapewnia naukę poprzez adaptacyjne skojarzenia sensomotoryczne.

Obwód neuromorficzny składa się z nielotnego i lotnego organicznego tranzystora synaptycznego [oznaczonego odpowiednio jako urządzenia MEM (pamięć) i OECT (organiczny tranzystor elektrochemiczny); Rys. 1B], które są połączone szeregowo i zasadniczo tworzą dzielnik napięcia, który można trenować. Napięcie wyjściowe VM zależy od stosunku rezystancji między dwoma urządzeniami synaptycznymi, a także od ich czuciowych sygnałów wejściowych.

Algorytm jednostki cyfrowej jest statyczny i dlatego tworzy stałą ramkę behawioralną, gdy robot zbliża się do skrzyżowania labiryntu. Sam algorytm nie ma wpływu na rzeczywisty kierunek skrętu, ale może faworyzować kierowanie w lewo lub w prawo w zależności od zmiennej wejściowej, która czasowo modyfikuje rozkład mocy silnika (sekcja S1 i rys. S2).

Zmienna wejściowa jest dostarczana przez organiczny obwód neuromorficzny w czasie rzeczywistym, jako napięcie analogowe VM. Maszyna wirtualna jest następnie przetwarzana na postać cyfrową za pomocą przetwornika analogowo-cyfrowego o rozdzielczości 12 bitów, który ma być obsługiwany przez algorytm wykonywany w jednostce sterującej. Dostarczając napięcie wyjściowe VM do jednostki sterującej, obwód neuromorficzny odbiera optyczny sygnał sensoryczny z czujnika odbicia na bramce GOECT oraz mechaniczny sygnał sensoryczny z czujnika dotykowego na bramce GMEM.

Sygnał odbicia jest używany do wykrywania toru labiryntu, a mechaniczny sygnał czujnika dotykowego reprezentuje bodziec środowiskowy do wzmocnionego uczenia się. Sygnały sensoryczne są kondycjonowane i skalowane w dół przez dodatkową analogową jednostkę sprzętową w celu dopasowania do niskich napięć roboczych urządzeń synaptycznych (≤0,5 V; sekcja S2 i rys. S1 i S3).

Gdy robot porusza się po linii prostej w labiryncie i zbliża się do skrzyżowania, rzeczywisty wynik skrętu zależy od chwilowego rozdziału mocy między lewy i prawy silnik. Ta chwilowa dystrybucja jest tymczasowo napędzana przez napięcie wyjściowe VM organicznego obwodu neuromorficznego, ponieważ odbiera on optomechaniczne sygnały sensoryczne. Ze względu na oscylacyjne skanowanie toru labiryntu robotem za pomocą algorytmu śledzenia linii (rys. S2), kierunek sterowania na skrzyżowaniu jest niedeterministyczny z prawdopodobieństwem zależnym od napięcia VM (rys. 1C).

Organiczny obwód neuromorficzny zbudowany jest z urządzeń synaptycznych w skali 2 μm opartych na OECT (ryc. 2A i ryc. S4). Materiał kanału tranzystorów, organiczny przewodnik jonowo-elektroniczny, jest bramkowany przez elektrolit, a prąd bramki jonowej może modulować prąd elektroniczny przepływający przez kanał (34, 39). Oba urządzenia są wytwarzane przy użyciu przetworzonego w roztworze polimeru poli(2-(3,3′-bis(2-(2-(2-metoksyetoksy)etoksy)etoksy)-[2,2′-bitiofen]-5-yl) tieno [3,2-b] tiofen) [p(g2T-TT)] jako materiał kanału. Jako elektrolit urządzenia służy żel jonowy [1-etylo-3-metyloimidazoliowy bis(trifluorometylosulfonylo)imid (EMIM:TFSI) z polifluorkiem winylidenu-ko-heksafluoropropylen (PVDF-HFP)] pomiędzy kanałem a bramką (40) . p(g2T-TT) wykazuje przewodzenie mieszane, ponieważ jest organicznym półprzewodnikiem transportującym dziury, a także materiałem przewodzącym jony. p(g2T-TT) został wybrany jako materiał kanałowy zarówno w lotnych, jak i synaptycznych tranzystorach elektrochemicznych, ponieważ zapewnia właściwości niezbędne dla elementów urządzenia obwodu neuromorficznego, takie jak szeroki zakres dynamiczny strojenia rezystancji (~100x analog okno pamięci), wysoka transkonduktancja (~μS do mS) i wytrzymałość (~108 zdarzeń zapisu-odczytu) przy pracy niskonapięciowej (∣V∣ < 0,5 V) (30, 41).

Rozróżnienie między lotnością a nielotnością zależy od warunków sondowania urządzeń. Nielotność jest indukowana przez wymuszenie stanu potencjału otwartego obwodu bramka-kanał za pomocą przełącznika analogowego (tj. czujnika dotykowego), podczas gdy sondowanie elektrody bramkowej bezpośrednio inicjuje zachowanie niestabilne (29, 30). W związku z tym można osiągnąć monolityczną integrację obu funkcji tranzystora (lotny/nielotny) z tym samym kanałem i materiałami elektrolitu dla realizacji organicznego obwodu neuromorficznego, co znacznie upraszcza proces wytwarzania i wybór materiału (rys. S4).

Ryc. 2. Organiczny obwód neuromorficzny do adaptacyjnego przetwarzania i kontroli sensomotorycznej. (A) Organiczny obwód neuromorficzny składa się z OECT i organicznej sztucznej synapsy (MEM), tworzących trenowalny/adaptacyjny dzielnik napięcia (VSUPP = -0,5 V). (B) Charakterystyka przenoszenia (ID w porównaniu z VG,OECT) i wyjścia (ID w porównaniu z VD,OECT) tranzystorów. (C) Obliczone napięcie wyjściowe VM organicznego obwodu neuromorficznego i transkonduktancja OECT gm,OECT jako funkcja stosunku oporności OECT do MEM, ROECT/RMEM. Stosunek ROECT/RMEM~100 jest niezbędny do modulowania VM od 0 do VSUPP/2 (linia niebieska) i tłumienia/wzmacniania gm,OECT (linia czerwona). Zmiana stosunku ROECT/RMEM wpływa na linię bazową VM (wstawka, niebieski) oraz wzmocnienie sygnałów przez gm,OECT (wstawka, czerwony). RMEM jest emulowany za pomocą rezystora o zmiennym obciążeniu. Model urządzenia i jego parametry użyte do obliczeń przedstawiono w rozdziale S3. (D) Adaptowalność organicznej sztucznej synapsy (MEM). Poziomy przewodnictwa kanału urządzenia dla szeregu mechanosensorycznych impulsów napięcia VG,MEM, przyłożonych na elektrodzie bramki (VG,MEM = 1 V, t~1 s). Osiągnięto okno pamięci ~100×. Liczba stanów i ich odstępy zależą od warunków pulsowania. (E) Napięcie wyjściowe VM organicznego obwodu neuromorficznego w czasie, ponieważ obwód odbiera optomechaniczne sygnały sensoryczne; VG,OECT, optyczne śledzenie labiryntu (VG,OECT = -0,25 V, dla ≳20 ms); VG,MEM, czujnik dotykowy do wzmocnionego uczenia (VG,MEM = -1 V, przez ~1 s). Zachowanie się robota do skrętu zależy od chwilowego stanu maszyny wirtualnej.

Lotna synaptyczna część trenowalnego obwodu neuromorficznego przypomina OECT. Uzyskano charakterystyki tranzystorów, które wykazują niezawodne zachowanie przełączania przy ultraniskich napięciach roboczych (rys. 2B i rys. S5). Na przykład, w przypadku tylko OECT, napięcia robocze charakterystyki transferu (ID w porównaniu z VG,OECT) i wyjścia (ID w porównaniu z VD,OECT) wynoszą <0,4 V, z ID jako prąd drenu i VG,OECT i VD, OECT jako odpowiednio napięcie bramki i drenu.

Transkonduktancja gm,OECT (=dID/dVG,OECT), która określa wydajność urządzenia do wzmacniania sensorycznego sygnału wejściowego (VG,OECT) na wyjściu (ID), zależy monotonicznie od napięcia drenu VD,OECT (sekcja S3). Po podłączeniu rezystora zmiennego obciążenia RMEM szeregowo do OECT w topologii dzielnika napięcia, podział napięcia VM (lub równoważnie VD,OECT), a tym samym gm,OECT, zależą od stosunku OECT do rezystancji obciążenia, ROECT/RMEM (rys. 2C i sekcja S3).

Stosunek w zakresie ROECT/RMEM = 1 do 100 jest wystarczający, aby zmodyfikować VM z VSUPP/2 na 0 V i wzmocnić lub nawet całkowicie stłumić sygnał VG,OECT (na rys. 2C pokazany jako gm,OECT). W odpowiedzi obwodu w dziedzinie czasu (wstawka na ryc. 2C), ROECT/RMEM określa zarówno bazowy poziom VM (brak czuciowego sygnału wejściowego; VG,OECT = 0), jak i jego wzmocnienie (dla zaburzeń czuciowych; VG,OECT) . Czas odpowiedzi obwodu neuromorficznego jest zgodny z oscylacyjnym skanowaniem toru labiryntu (rys. S6).

Trenowalny obwód neuromorficzny jest wykonany z organicznej sztucznej synapsy (MEM), która wykazuje przestrajalne i nieulotne stany przewodnictwa, zgodnie z topologią obwodu pokazaną na ryc. 2A. Przewodność urządzenia synaptycznego jest modulowana odwracalnie przez serię impulsów napięcia VG,MEM na elektrodzie bramki za pośrednictwem przełącznika analogowego (tj. czujnika dotykowego).

Urządzenie synaptyczne wykazuje okno wysokiej pamięci >100x i stabilne, wielokrotne stany pamięci (ryc. 2D i ryc. S7). Okno pamięci urządzenia synaptycznego jest wystarczające do zmiany podziału napięcia VM trenowalnego dzielnika napięcia, a zatem transkonduktancji OECT gm,OECT. W topologii trenowalnego obwodu bramka MEM odbiera treningowe impulsy napięcia VG,MEM (1 V przez ~1 s), które modulują poziom podstawowy VM, a bramka OECT jest obciążona sygnałem sensorycznym w czasie rzeczywistym VG,OECT (-0,25 V dla ≳20 ms) z toru labiryntu (rys. 2E). Charakterystyki obwodu neuromorficznego zostały dokładnie zamodelowane na ryc. S8.

Obwód neuromorficzny jest symulowany w warunkach statycznych i przejściowych jako funkcja sygnałów czuciowych i treningowych. OECT wykazuje regulowaną czułość, która zależy od stosunku rezystancji dwóch kanałów, ROECT/RMEM (przy ~60 s; Rys. 2E). Gdy ROECT/RMEM ≫ 1, linia bazowa podziału napięcia wynosi VM~0 V, a czułość OECD na śledzenie labiryntu jest minimalna; poprzez trening ROECT≈RMEM, a czułość znacznie wzrasta (ryc. S9). VM jest przetwarzany na postać cyfrową i przesyłany do jednostki sterującej w czasie rzeczywistym jako dane wejściowe algorytmu śledzenia linii statycznej.

Algorytm statyczny jest wykonywany przez odbieranie dynamicznych danych wejściowych z VM, które zależą od zewnętrznego strumienia sygnału sensorycznego. Wprowadzanie dynamiczne czasowo modyfikuje rozkład mocy silnika, a tym samym sterowanie na skrzyżowaniu labiryntu. W zależności od stanu VM, na skrzyżowaniu preferowane jest sterowanie w prawo (∣VM∣ ≤ 150 mV) lub w lewo (∣VM∣ ≥ 350 mV), z niedeterministycznym obszarem przejściowym pomiędzy (sekcje S1 i S5 oraz rys. S10).

Nawigacja robota w labiryncie jest osiągana poprzez stopniowe tworzenie skojarzenia wzrokowo-ruchowego między wskazówką wzrokową a działaniem motorycznym poprzez trening, co skutkuje wynikiem behawioralnym (przedstawionym na przecięciu komórek elementarnych na ryc. 3A). Przed fazą treningu skojarzenie wzrokowo-ruchowe nie zostało jeszcze ustalone.

Chociaż wizualne wskazówki do nawigacji są obecne, obwód neuromorficzny jest inicjowany w taki sposób, że jego reakcja elektryczna na wskazówki jest niska bez wywoływania jakichkolwiek skutków behawioralnych. Robot skręca w prawo na każdym skrzyżowaniu (odpowiedź VM w kolorze jasnoniebieskim; rys. 2E).

Podczas treningu skojarzenie jest wzmacniane przez zewnętrzny bodziec mechaniczny (tj. szkodliwy bodziec lub kara), gdy robot nie wykonuje docelowego zachowania (tj. gdy zbacza z zaplanowanej ścieżki w kierunku wyjścia lub fałszywie dociera do granic labiryntu) . Zewnętrzny bodziec jest podawany za pomocą czujnika dotykowego (przez zewnętrzny trener lub gdy robot uderza w granice labiryntu) na bramce MEM, GMEM, podczas gdy robot optycznie bada labirynt za pomocą sygnału sensorycznego bramki OECT, GOECT.

Na każdym etapie treningu adaptacja behawioralna jest dwojaka: linia bazowa VM przesuwa się w górę na krzywej prawdopodobieństwa skrętu, a czułość na wskazówki nawigacyjne jest zwiększona (odpowiedź VM w kolorze średnio niebieskim; ryc. 2E). Po treningu, podstawa VM nadal leży w reżimie „skrętu w prawo” krzywej prawdopodobieństwa. Niemniej jednak, gm,OECT jest teraz znacznie zwiększony i, w obecności wskazówki nawigacyjnej, VM tymczasowo przechodzi w tryb „skrętu w lewo” (odpowiedź VM w kolorze ciemnoniebieskim; Ryc. 2E).

Powstaje zatem skojarzenie wzrokowo-ruchowe, a wskazówki wizualne wywołują wynik behawioralny: brak wskazówki wizualnej, skręt w prawo; obecność wizualnej wskazówki, skręt w lewo. Planowana ścieżka jest wyznaczana poprzez umieszczenie wskazówek nawigacyjnych (łuków) na określonych skrzyżowaniach labiryntu, które wskazują skręt w lewo, w przeciwnym razie skręt w prawo.

Ryc. 3. Proces treningowy i tworzenie asocjacji sensomotorycznej. (A) Proces szkolenia robota ukazujący powstawanie asocjacji wzrokowo-ruchowej. Po szkoleniu robot uczy się kojarzyć wskazówki nawigacyjne z czynnościami motorycznymi, wyświetlając w ten sposób wynik behawioralny. (B) Ewolucja czasowa napięcia wyjściowego VM podczas treningu, w odniesieniu do krzywej prawdopodobieństwa skrętu. Alternatywne kolory na wykresie VM odpowiadają sekwencyjnym krokom treningu (n = 1 do 16 kroków treningu). (C) VM w czasie dla ostatniego etapu szkolenia, pokazujący wykrycie wskazówek nawigacyjnych, które indukują czasowe odwrócenie prawdopodobieństwa skrętu. (D) Konfiguracja labiryntu. Planowana ścieżka jest oznaczona wskazówkami nawigacyjnymi (#1 do #9), które wskazują skręt w lewo, w przeciwnym razie skręt w prawo.

Rycina 3B przedstawia czasową odpowiedź VM w całym procesie treningowym w korelacji z krzywą prawdopodobieństwa skrętu (n = 1 do 16 kroków treningowych). W przypadku określonych parametrów operacji/treningu użytych tutaj (tj. czasu i amplitudy VG,OECT i VG,MEM), robot jest w pełni przeszkolony po ~16 krokach (rys. 3C), dzięki czemu jest w stanie wykryć wskazówki nawigacyjne planowana ścieżka (ryc. 3D). Ewolucję procesu szkolenia przedstawiono dla ścieżki docelowej 1 (rys. 4, A i B).

Dane są wyodrębniane poprzez śledzenie wideo trajektorii robota (sekcja S4 i film S1). Robot dokonuje stopniowych postępów w realizacji docelowej ścieżki zgodnie z czasową reakcją VM (rys. 3B). Dla n = 16 robot jest w pełni przeszkolony i wychodzi z labiryntu zaplanowaną ścieżką. Bardziej szczegółowe statystyki procesu szkolenia przedstawiono na ryc. S11. Po utworzeniu skojarzenia wzrokowo-ruchowego robot jest w stanie uniwersalnie podążać całkowicie nieznaną ścieżką i wyjść z labiryntu.

Na rys. 4C robot jest umieszczony przy wejściu do docelowej ścieżki 2 i natychmiast podąża nowo zaplanowaną ścieżką do wyjścia. To uogólnienie uczenia się poprzez asocjację sensomotoryczną pokazano w filmie S2 w przypadku nawigacji na ścieżce docelowej 2.

Rys. 4. Nawigacja w labiryncie w kierunku wyjścia. (A) Ewolucja treningu w labiryncie, wizualizowana jako trajektorie ścieżki. Po każdym etapie szkolenia (n = 1 do 16) robot stopniowo uczy się podążać docelową ścieżką poprzez wskazówki nawigacyjne w kierunku wyjścia z labiryntu. (B) Ukończenie docelowej ścieżki 1 wewnątrz labiryntu, po ustanowieniu skojarzenia wzrokowo-ruchowego (etap szkolenia n = 16). (C) Uogólnienie procesu uczenia się na inną, arbitralną ścieżkę (przykład ścieżki docelowej 2). Zdjęcie: Imke Krauhausen, Max Planck Institute for Polymer Research.

DYSKUSJA

Zainspirowani biologicznym procesem integracji sensomotorycznej, zademonstrowaliśmy samodzielnego robota, który uczy się za pomocą prostego, ale skutecznego obwodu neuromorficznego. Organiczny obwód neuromorficzny jest używany jako niskonapięciowy, analogowy rdzeń obliczeniowy pętli sensomotorycznej w robotyce, wykonany z komponentów przeznaczonych do celów edukacyjnych.

Podczas gdy robot bada otoczenie, sygnały sensomotoryczne w czasie rzeczywistym są scalane w organicznym obwodzie neuromorficznym, a poprzez lokalny/zdecentralizowany trening w obwodzie stopniowo tworzy się asocjacja wzrokowo-ruchowa. Dzięki tej integracji sensomotorycznej robot uczy się kojarzyć wskazówki nawigacyjne z wynikami behawioralnymi i jest w stanie podążać zaplanowaną ścieżką do wyjścia z labiryntu. Po ustanowieniu skojarzenia sensomotorycznego robot jest w stanie poruszać się w labiryncie w kierunku wyjścia nieznanymi ścieżkami.

Ta demonstracja pokazuje, jak niskonapięciowe i łatwe do dostrojenia urządzenia organiczne mogą funkcjonować jako elementy adaptacyjne zdolne do tworzenia multimodalnych połączeń asocjacyjnych do autonomicznego uczenia się.

Podkreśla łatwość wytwarzania, integracji i treningu organicznych obwodów neuromorficznych w celu zdecentralizowanej integracji sensomotorycznej i toruje drogę wyrafinowanym systemom, które zawierają mnóstwo strumieni sensorycznych, aby umożliwić bardziej złożone zachowania, zaawansowaną naukę w obwodach, a nawet w wykrywaniu materii. obliczeń i uruchamiania za pomocą wysokowydajnych materiałów organicznych.

Integrując w materiale elementy sensoryczne, uruchamiające, uczące się i samonaprawiające się, inteligencja może być rozpowszechniana i włączana do struktury agentów. Połączenie organicznej elektroniki neuromorficznej z robotyką edukacyjną doprowadzi również do powstania wszechstronnej platformy do modelowania fizycznego i szybkiego prototypowania inteligentnych systemów rzeczywistych.

MATERIAŁY I METODY


Produkcja urządzenia

Standardowe szkiełka mikroskopowe (75 mm na 25 mm) czyszczono w kąpieli ultradźwiękowej, najpierw w roztworze mydła [Micro-90 (Sigma-Aldrich)], a następnie w mieszaninie rozpuszczalników 1:1 (v/v) acetonu i izopropanolu . Złote elektrody źródła, drenu i bramek zostały odwzorowane fotolitograficznie [z pozytywem MICROPOSIT S1813 Photoresist (Dow)] na oczyszczonych szkiełkach.

W celu uzyskania lepszej przyczepności złota zastosowano warstwę chromu. Każde szkiełko zawiera cztery obwody składające się z jednego urządzenia OECT i jednego urządzenia neuromorficznego. Wymiary kanału urządzenia neuromorficznego są następujące: W × L = 80 μm na 240 μm z bramką boczną o tej samej wielkości (80 μm na 240 μm) i odległości 450 μm między bramką a kanałem. OECT ma następujące wymiary: W × L = 80 μm na 480 μm z boczną bramką 2000 μm na 2000 μm oraz 450 μm odległości między bramką a kanałem. Kompletny układ przedstawiono na ryc. S4A. Osadzono dwie warstwy parylene C [specjalne systemy powlekania (SCS)].

Mydło [roztwór mydła Micro-90, 1% (obj./obj.) w wodzie dejonizowanej] zastosowano do rozdzielenia między warstwami, umożliwiając oderwanie górnej warstwy. Do dolnej warstwy parylenu C dodano promotor adhezji [silan A-174 (γ-metakryloksypropylotrimetoksysilan) (Sigma-Aldrich)], aby zapobiec odklejaniu. Ta warstwa izoluje złote elektrody. W drugim etapie fotolitografii [z pozytywową fotomaską AZ 9260 Microchemicals (Cipec Spécialités)] określa się wymiary kanału i bramki bocznej urządzeń.

Do wycięcia kanału i odpowiadających mu bramek zastosowano reaktywne trawienie jonowe plazmą O2/CF4. Polimer półprzewodnikowy p(g2T-TT) zsyntetyzowano według (41) i przygotowano i zastosowano zgodnie z procedurą w (30, 41). p(g2T-TT) rozpuszczono w chloroformie (3 mg/ml) w komorze rękawicowej wypełnionej N2 i odlano przez wirowanie w warunkach otoczenia przy 1000 obr./min przez 1 min, uzyskując grubość 40 nm. Urządzenia wypiekano w 60°C przez 1 min.

Protektorowy górny parylen C został oderwany, aby ograniczyć polimer wewnątrz obszarów bramy i kanału. Nadmiar mydła spłukano wodą dejonizowaną. Żel jonowy przygotowano jako elektrolit zgodnie z (40). Ciecz jonową EMIM:TFSI i kopolimer PVDF-HFP rozpuszczono w acetonie w komorze rękawicowej wypełnionej N2 w następujących proporcjach: 17,6% wag. (% wag.) jonowej cieczy, 4,4% wag. polimeru i 76% wag. acetonu. Roztwór mieszano przez co najmniej 2 godziny w 40°C wewnątrz komory rękawicowej. Żel jonowy wkroplono za pomocą pipety na każdy kanał i bramkę w warunkach otoczenia i suszono przez noc (rys. S4B).

Pomiary

Do pomiarów urządzenia nielotnego (MEM) wykorzystano Keithley 2604B SourceMeter. Pomiędzy bramką urządzenia GMEM a układem pomiarowym dodano przełącznik (tj. binarny czujnik dotykowy) połączony szeregowo o rezystancji RG = 100 MΩ w celu wywołania zjawisk pamięci analogowej. Czujnik dotykowy wymusza stan potencjału otwartego między bramką a kanałem, podczas gdy rezystor bramkowy RG zmniejsza i ogranicza prąd bramki w zakresie nanoamperów. Pomiary urządzenia lotnego (OECT) i całego obwodu neuromorficznego przeprowadzono za pomocą systemu charakteryzacji półprzewodników Keithley 4200 z maksymalnie 5 jednostkami miary źródła.

Podsumowanie

Opisana powyżej metodologia dla przeciętnego czytelnika jest być może skomplikowana, ale w efekcie taki robot może tworzyć swego rodzaju wspomnienia związane z błędnymi decyzjami, by później użyć ich tak, jakby zostały zapisane w pamięci. Takie podejście do tematu sprawia, że zmniejsza się zapotrzebowanie na energię, a rozmiary samego urządzenia również spadają. W konsekwencji mogłaby powstać niezwykle wydajna maszyna, być może zbliżona pod tym względem do ludzkiego mózgu.

###

IRME / ScienceAdvances