Информации

Како да се генерира сигналот за награда во алгоритам за учење временска разлика (TD)?

Како да се генерира сигналот за награда во алгоритам за учење временска разлика (TD)?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Во однос на алгоритмот за учење TD предложен од Сатон и Барто кој е даден со равенките:

$$ V_i (t+1) = V_i (t)+ beta bigg ( lambda (t+1)+ gamma bigg [ sum_ {j} V_j (t) X_j (t+1) bigg] -igg[sum_{j}V_j(t)X_j(t) igg] igg)alphaar{X}_i(t+1), ar{X}_i(t+1) =ar{X}_i(t)+deltaig(X_i(t)-ar{X}_i(t)ig)$$ Ги имам следниве сомнежи:

  1. Ако сакам да го симулирам алгоритмот во самостојна средина, тогаш како да генерирам награден сигнал $ lambda (t+1) $?
  2. Како е поврзано $ ламбда (t+1) $ со стимулот за условување и безусловниот стимул?

На пример, ако сакав да симулирам олеснување на далечинско поврзување со интервентен стимул во TD моделот како што е прикажано на сл. подолу тогаш дали ќе биде доволно ако сметам дека „ламбда“ е сигнал како што е претставено од САД?

Успеав да дизајнирам соодветни CSA и CSB. Меѓутоа, кога користам $lambda$ како што е наведено од US на сликата, не го добивам резултатот што е прикажан во пробите. Што би можело да тргне наопаку во формулацијата на наградата?

Равенките се наоѓаат во поглавје 12 од книгата на Сатон и Барто, 1990 година.

Сатон, Р. С. и Барто, А. Г. (1990). Учење и компјутерска невронаука: основи на адаптивни мрежи. A/1 IT Press, Кембриџ, MA, 497-437.


ТД (λ) во Делфи/Паскал (учење на временска разлика)

Имам вештачка невронска мрежа која игра Tic-Tac-Toe - но сè уште не е комплетна.

Што имам уште:

  • низата за награди „R[t]“ со целобројни вредности за секој временски чекор или движење „t“ (1=играчот А победи, 0=реми, -1=играчот Б победи)
  • Влезните вредности правилно се шират низ мрежата.
  • формулата за прилагодување на тежините:

Што недостасува:

  • учење на ТД: С still уште ми треба процедура која ги „промовира“ грешките на мрежата користејќи го алгоритмот ТД (λ).

Но, јас навистина не го разбирам овој алгоритам.

Мојот пристап досега.

Параметарот λ за распаѓање λ треба да биде „0,1“ бидејќи дисталните состојби не треба да добијат толку многу од наградата.

Стапката на учење е „0,5“ во двата слоја (влезен и скриен).

Се работи за задоцнета награда: Наградата останува „0“ додека не заврши играта. Тогаш наградата станува „1“ за победа на првиот играч, „-1“ за победа на вториот играч или „0“ во случај на нерешено.

Моите прашања:

  • Како и кога ја пресметувате грешката на мрежата (грешка во ТД)?
  • Како може да го имплементирате „повратното ширење“ на грешката?
  • Како се прилагодуваат тежините со TD(λ)?

Ви благодарам многу однапред :)


Избор на домен за засилено учење

Еден начин да се замисли автономен агент за учење за засилување би бил како слеп човек кој се обидува да се движи низ светот само со своите уши и бел стап. Агентите имаат мали прозорци што им овозможуваат да ја согледаат нивната околина, а тие прозорци можеби не се најсоодветниот начин за нив да го согледаат она што е околу нив.

Дали сте заинтересирани за засилено учење?

Автоматски примени RL на случаи на употреба на симулации (на пр. центри за повици, складирање итн.) користејќи Pathmind.

(Всушност, одлучување кои видови на влезот и повратните информации на кои вашиот агент треба да обрне внимание е проблем кој тешко се решава. Ова е познато како избор на домен. Алгоритмите кои учат како да играат видео игри најчесто можат да го игнорираат овој проблем, бидејќи околината е создадена од човекот и строго ограничена. Така, видео игрите ја обезбедуваат стерилната средина на лабораторијата, каде што може да се тестираат идеите за засилено учење. Изборот на домен бара човечки одлуки, обично засновани на знаење или теории за проблемот што треба да се реши на пр. изборот на доменот на внесување за алгоритам во автомобил со самоуправа може да вклучи избор да вклучи радарски сензори покрај камерите и ГПС-податоците.)


Клучни зборови

Сен Ванг е вонреден професор на Факултетот за софтверско инженерство, Универзитетот Чонгкинг, Чонгкинг, Кина. Тој доби дипл., магистер и докторат. диплома по компјутерски науки на Универзитетот за наука и технологија на Кина (USTC), Кинеската академија на науките (CAS) и Универзитетот Цингхуа, Кина, во 2005, 2008 и 2014 година, соодветно. Неговите истражувачки интереси вклучуваат кеширање во мрежата, вмрежување информативно-центрирано, компјутерски облаци, вмрежување дефинирано со софтвер и виртуелизација на мрежни функции.

Џун Би ги добил Б.С., М.С. и докторат дипломирал по компјутерски науки на Универзитетот Цингхуа, Пекинг, Кина, од 1990 до 1999 година. Од 2000 до 2003 година, тој бил истражувачки научник во Одделот за истражувачки комуникациски науки на Bell Labs и Центарот за напредни комуникациски технологии на Bell Labs, Њу Џерси, САД. Во моментов тој е редовен професор и директор на Одделот за истражување на мрежна архитектура и засилувач IPv6, Институтот за мрежни науки и киберпростор на Универзитетот Цингхуа, и доктор на науки. Супервизор на Катедрата за компјутерски науки, Универзитетот Цингхуа. Тој е постар член на IEEE, ACM и истакнат член на кинеската компјутерска федерација. Тој служеше како претседател на управувачката група за Интернет форум за Азија во иднина, претседавач со работилницата INFOCOM NOM и работилницата ICNP CoolSDN, и член на комисијата за техничка програма на NFOCOM, ICNP, CoNEXT, SOSR, итн.

Џианпинг Ву е професор по компјутерски науки и директор на Центарот за истражување на мрежи, Универзитетот Цингхуа, Пекинг, Кина. Од 1994 година, тој е одговорен за кинеската мрежа за образование и истражување (CERNET), која е најголемата академска мрежа во светот како директор и на Мрежниот центар и на Техничкиот одбор. Тој служеше како претседател или член на програмски комитет за многу меѓународни конференции, како што беше претседател на FORTE/PSTV'1999 и член на програмскиот комитет на INFOCOM'2002, ICNP'2001 и 2006, FORTE/PSTV '1995-2003 и TESTCOM' 1995 – 2006 година итн. Неговата област на специјализација вклучува компјутерска мрежа со голема брзина, Интернет и неговите апликации, тестирање на мрежен протокол и формален метод.


Предвидување без модел

Динамичкото програмирање ни овозможува да ги одредиме функциите на состојба-вредност и дејство-вредност со оглед на динамиката (моделот) на системот. Тоа го прави со математички користење на Белмановите равенки и вклучување на динамиката (награди и веројатности).

Ако моделот (наградите и веројатностите) на системот не е познат априори, можеме емпириски да ги процениме вредносните функции за дадена полиса. Тоа го правиме со преземање на активности според дадената политика и забележувајќи ги државните транзиции и награди. Со правење доволен број обиди, можеме да се приближиме до вредносните функции за дадената политика.

Монте-Карло учење

Ова се однесува на експерименти кои се изведуваат како епизоди. Секоја епизода завршува и следната епизода е независна од тековната епизода. На пример, кога се игра игра на табла, секоја нова игра претставува посебна епизода.

Со оглед на политиката, се преземаат активности во секоја држава според политиката. За состојба која е пристигната на време, се пресметува враќањето за одредено трчање до завршувањето на епизодата:

Еве ја наградата добиена со преземање акција во државата во времето.

Ваквите враќања се додаваат за сите епизоди во кои државата е посетена за да се добие вкупен принос за државата:

И, се пресметува бројот на епизоди (или во алтернативен метод, број на посети??) што е посетена државата.

Вредноста на државата се проценува како среден принос, бидејќи според законот на голем број како.

Имајте предвид дека просечниот принос може да се пресмета онлајн (во реално време) бидејќи епизодите се извршуваат наместо да се пресметуваат само откако ќе се завршат сите епизоди на следниов начин:

Во пракса во сценариото за онлајн учење, наместо да се користи за мерење на повратот од тековната епизода, се користи постојан фактор со. Ова води до формулацијата:

Кое е резонирањето? Наместо просекот во сите епизоди, на враќањето од последните епизоди им се дава поголема тежина отколку на враќањето од старите епизоди. На враќањето од епизодите им се дадени тежини кои експоненцијално се намалуваат со текот на времето.

Учење на временска разлика (ТД)

За разлика од учењето во Монте-Карло, учењето со временска разлика (TD) може да ја научи вредносната функција за неепизодни експерименти.

Во учењето во Монте-Карло, поминуваме низ целосна епизода, забележуваме “ реално ” враќање добиено до крајот на епизодата и ги акумулираме овие реални приноси за да ја процениме вредноста на состојбата.

Во учењето ТД, го правиме следново:

  1. ја иницијализираме вредноста за секоја состојба.
  2. го извршуваме експериментот (според дадената политика) за одреден број чекори (не мора до крајот на епизодата или експериментот). Бројот на чекори што ги извршуваме експериментот е идентификуван како -чекор TD (или TD(), накратко) учење.
  3. ја забележуваме наградата добиена во овие чекори.
  4. Потоа ја користиме Белмановата равенка за да го процениме приносот за остатокот од експериментот. Овој проценет поврат е. Овој проценет вкупен принос се нарекува цел на ТД.
  5. Ажурираме слично како онлајн учењето во Монте-Карло, освен што овде користиме проценет принос наместо “реално” враќање. Односно, ажурираме користејќи: . Количината се нарекува ТД грешка.

Како одредуваме во учењето TD()? Ние не’t. Во она што се нарекува учење ТД (), ние користиме геометриско пондерирање на проценетите приноси од сите чекори за да добиеме:


Концептот за експлоатација и истражување е инхерентно поврзан со човечката природа, каде што ние, како луѓе, претпочитаме познат во споредба со непознатото. На пример, одење во ресторан, можете да изберете да одите во вашиот омилен ресторан бидејќи веќе ви се допаѓа храната таму, но освен ако и додека не пробате друг ресторан, нема да знаете дали постои подобар ресторан.

Оттука, експлоатацијата е одење или правење на истата акција, која дава најдобра вредност од една состојба (често се нарекува Алчна акција), додека истражувањето е да се испробаат нови активности кои можат да дадат подобар поврат на долг рок, иако непосредната награда можеби не е охрабрувачки. Во горниот дијаграм, ако агентот размислува само за непосредна награда следејќи ја црвената патека за да ја добие максималната награда, подоцна ќе открие дека сината патека што има поголема вредност дури и преку непосредна награда е помала. Затоа е потребно истражување за да се постигне подобро долгорочно враќање.


Заклучок

Времето и RL во најголем дел се проучувани одделно, што доведува до главно непреклопувачки пресметковни модели. Меѓутоа, овде споревме дека овие модели всушност споделуваат некои важни заедничкости и нивното усогласување може да обезбеди унифицирано објаснување за многу бихејвиорални и нервни феномени. Додека во овој краток преглед само скициравме таква синтеза, нашата цел е да го засадиме семето за идно теоретско обединување.

Едно отворено прашање се однесува на тоа како да се усогласат различните теоретски идеи за претставувањето на времето кои беа опишани во овој труд. Нашата синтеза предложи централна улога за дистрибуирани елементи претставување на времето како што се микростимулите на Лудвиг и сор. (2008). Дали наместо тоа може да се користи претстава што произлегува од моделите на полумарков или пејсмејкер-акумулатор? Ова може да биде можно, но има неколку причини да се претпочита микростимулусната репрезентација. Прво, микростимулите природно се позајмуваат на архитектурата за апроксимација на линеарна функција која е широко користена во RL моделите на базалните ганглии. Спротивно на тоа, полу-Марков модел бара дополнителна компјутерска машинерија и не е очигледно како да се вклучи моделот пејсмејкер-акумулатор во теоријата на RL. Второ, моделот полу-Марков ја објаснува врската помеѓу временската прецизност и должината на интервалот на сметка на отстапување од нормативната рамка на РЛ. Трето, како што забележавме претходно, моделите на пејсмејкер-акумулатор имаат голем број други слабости (види Staddon and Higa, 1999, 2006 Matell and Meck, 2004 Simen et al., 2013), како што се недостаток на скромност, неверојатни неврофизиолошки претпоставки и неточни предвидувања во однесувањето. Сепак, ќе биде интересно да се истражат кои аспекти од овие модели можат успешно да се вградат во следната генерација на RL модели.

Изјава за конфликт на интереси

Авторите изјавуваат дека истражувањето е спроведено во отсуство на какви било комерцијални или финансиски односи кои би можеле да се толкуваат како потенцијален конфликт на интереси.


Упатство за учење за зајакнување

Ако барате курс за почетно или напредно ниво за засилено учење, погрижете се освен основен вовед, да вклучува и длабока анализа на RL со акцент на Q-Learning, Deep Q-Learning и напредни концепти во Policy Градиенти со Doom и Cartpole. Треба да изберете упатство за зајакнување учење кое ве учи да креирате рамка и чекори за формулирање на проблем за засилување и имплементација на RL. Треба да знаете и за неодамнешните RL достигнувања. Ви предлагам да ги посетите заедниците или заедниците за зајакнување на учењето, каде што експертите, професионалците и студентите од науката за податоци споделуваат проблеми, дискутираат за решенија и одговори на прашања поврзани со RL.

Машинско учење или засилено учење е метод на анализа на податоци што го автоматизира градењето аналитички модел. Тоа е гранка на вештачката интелигенција заснована на идејата дека системите можат да учат од податоците, да идентификуваат модели и да донесуваат одлуки со минимална човечка интервенција.

Повеќето индустрии кои работат со големи количини на податоци ја препознаа вредноста на технологијата за машинско учење. Со собирање на увид од овие податоци - често во реално време - организациите се способни да работат поефикасно или да добијат предност во однос на конкурентите.

Курсеви за анализа на податоци од Digital Vidya

Анализата на податоци претставува поголема слика за машинското учење. Исто како што Data Analytics има различни категории врз основа на користените податоци, машинското учење исто така го изразува начинот на кој една машина учи код или работи на надгледуван, ненадгледуван, полу-надгледуван и зајакнат начин.

За да стекнете повеќе знаење за засилување и неговата улога во аналитиката на податоци, можете да се одлучите за програми за сертификација преку Интернет или во училница. Ако сте програмер кој со нетрпение очекува кариера во машинско учење или наука за податоци, одете на курс за анализа на податоци за попрофитабилни опции за кариера во Индуктивно логично програмирање. Digital Vidya нуди напредни курсеви за Data Analytics. Наставни програми релевантни за индустријата, прагматичен пристап подготвен за пазарот, практичен проект Capstone се едни од најдобрите причини за избор на Дигитална Видија.

Технички комуникатор кој започнува самостојно, способен да работи во претприемачка средина, произведувајќи секаква техничка содржина, вклучително и системски прирачници, белешки за издавање производи, упатства за корисници на производи, упатства, водичи за инсталација на софтвер, технички предлози и бели хартии. Плус, страствен блогер и ентузијаст за маркетинг на социјалните медиуми.

Датум: 26 јуни 2021 година (сабота)
Време: 10:30 - 11:30 часот (IST/GMT +5:30)


Учење со временски разлики

Наодот на знак fERN покажа дека учесниците ги оценувале средните состојби во однос на идната награда. Овој резултат е конзистентен со класа на TD модели во кои кредитот се доделува врз основа на непосредните и идните награди. За да процениме дали резултатите од однесувањето и ЕРП одразуваат таков процес на РЛ, ги испитавме предвидувањата на три RL алгоритми: актер/критичар (Барто, Сатон, & Андерсон 1983), Q-учење (Воткинс & Дајан, 1992) , и SARSA (Rummery & Niranjan, 1994). Дополнително, разгледавме варијанти на секој алгоритам со и без траги за подобност (Sutton & Barto, 1998).

Модели

Актер/критичар

Актерот/критичкиот модел (AC) учи функција за претпочитање, стр(с, а), и функција на државна вредност, В(с). Функцијата за претпочитање, која одговара на актерот, овозможува избор на дејство. Функцијата држава-вредност, која одговара на критичарот, овозможува евалуација на исходот. По секој исход, критичарот ја пресметува грешката во предвидувањето,

Параметарот на временскиот попуст, γ, контролира колку стрмно се намалува идната награда, а критичарот ја третира идната награда како вредност на следната состојба. Критичарот користи грешка во предвидувањето за да ја ажурира функцијата вредност на состојбата,

Параметарот за стапка на учење, α, контролира колку се пондерирани неодамнешните резултати. Со користење на грешка во предвидувањето за приспособување на вредностите на состојбата, критичарот учи да го предвиди збирот на непосредната награда, рт+1, и намалената вредност на идната награда, γ · В(ст+1).

Актерот исто така користи грешка во предвидување за да ја ажурира претпочитаната функција,

Користејќи грешка во предвидување за да ги прилагоди преференциите на акцијата, актерот учи да избере поволни однесувања. Веројатноста за избор на дејство, π(с, а), се одредува со правилото за одлука softmax,

Параметар за избор на бучава, τ, го контролира степенот на случајност при изборот. Одлуките стануваат стохастички како τ се зголемува, а одлуките стануваат детерминистички како τ се намалува.

Q-учење

AC и Q-учењето се разликуваат на два начина. Прво, Q-learning користи функција акција-вредност, П(с, а), за избирање дејства и за оценување на исходите. Второ, Q-учењето ја третира идната награда како вредност на оптималната акција во состојба т+1,

Агентот користи грешка во предвидувањето за да ги ажурира вредностите на дејствата (Равенство 6), а агентот избира дејства според правилото за одлучување softmax.

САРСА

Како и Q-learning, SARSA користи функција на акција-вредност, П(с, а), да се изберат акции и да се оценат резултатите. Меѓутоа, за разлика од Q-learning, SARSA ја третира идната награда како вредност на вистинското дејство избрано во состојба т+1,

Агентот користи грешка во предвидувањето за да ги ажурира вредностите на дејствата (Равенство 6), а агентот избира дејства според правилото за одлучување softmax.

Траги за подобност

Иако RL алгоритмите обезбедуваат решение за проблемот со временската доделување кредити, трагите за подобност можат во голема мера да ја подобрат ефикасноста на овие алгоритми (Sutton & Barto, 1998). Трагите за подобност обезбедуваат привремена евиденција на настани како што се посета на држави или избирање дејства, и тие ги означуваат настаните како подобни за ажурирање. Истражувачите ги примениле трагите за подобност на моделите на однесување и нерви (Bogacz, McClure, Li, Cohen, & Montague 2007 Gureckis & Love, 2009 Pan, Schmidt, Wickens, & Hyland 2005). Во овие симулации, го искористивме фактот дека трагите за подобност го олеснуваат учењето кога се одложуваат одделни акции и награди (Sutton & Barto, 1998).

Во AC, трагата на состојбата се зголемува кога се посетува состојбата, а трагите бледнеат според параметарот на распаѓање λ,

Грешката во предвидување се пресметува на конвенционален начин (Ек. 1), но сигналот за грешка се користи за ажурирање на сите состојби според нивната подобност,

Посебни траги се зачувани за акциони парови на состојба– со цел да се ажурира функцијата за претпочитање, стр(с, а). Слично на тоа, во Q-learning и SARSA, трагите се зачувуваат за состојбата–акциони парови со цел да се ажурира функцијата акција-вредност. П(с, а).


Фусноти

Прилози на авторот: P.W.G. напиша весникот.

Авторот не изјавува дека нема конфликт на интереси.

Овој труд произлегува од Артур М. Саклер колоквиум на Националната академија на науките, „Квантификација на однесувањето“ одржан од 11 до 13 јуни 2010 година, во зградата AAAS во Вашингтон, ДЦ. Целосната програма и аудио датотеките на повеќето презентации се достапни на веб-страницата на NAS на www.nasonline.org/quantification.

Оваа статија е директно поднесување на PNAS.

↵*Важно е да се признае дека постојат алтернативни погледи за функцијата на овие неврони. Бериџ (53) тврди дека допаминските неврони играат улога тесно поврзана со онаа опишана овде што се нарекува стимулативна важност. Редгрејв и Гарни (54) тврдат дека допаминот игра централна улога во процесите поврзани со вниманието.


TD(λ) во Делфи/Паскал (Учење со временски разлики)

Имам вештачка невронска мрежа која игра Tic-Tac-Toe - но сè уште не е комплетна.

Што имам уште:

  • низата награди "R [t]" со цели вредности за секој временски чекор или потег "t" (1 = победи играчот А, 0 = реми, -1 = играчот Б победи)
  • Влезните вредности правилно се шират низ мрежата.
  • формулата за прилагодување на тежините:

Што недостасува:

  • учење на ТД: С still уште ми треба процедура која ги „промовира“ грешките на мрежата користејќи го алгоритмот ТД (λ).

Но, јас навистина не го разбирам овој алгоритам.

Мојот досегашен пристап.

Параметарот на распаѓање на трагата λ треба да биде „0,1“ бидејќи дисталните состојби не треба да добиваат толку голема награда.

Стапката на учење е „0,5“ во двата слоја (влезен и скриен).

Станува збор за одложена награда: наградата останува „0“ додека не заврши играта. Тогаш наградата станува „1“ за победа на првиот играч, „-1“ за победа на вториот играч или „0“ во случај на нерешено.

Моите прашања:

  • Како и кога ја пресметувате грешката на мрежата (ТД грешка)?
  • Како може да го имплементирате „повратното ширење“ на грешката?
  • Како се прилагодуваат тежините користејќи TD (λ)?

Ви благодарам многу однапред :)


Клучни зборови

Сен Ванг е вонреден професор на Факултетот за софтверско инженерство, Универзитетот Чонгкинг, Чонгкинг, Кина. Тој доби дипл., магистер и докторат. диплома по компјутерски науки на Универзитетот за наука и технологија на Кина (USTC), Кинеската академија на науките (CAS) и Универзитетот Цингхуа, Кина, во 2005, 2008 и 2014 година, соодветно. Неговите истражувачки интереси вклучуваат кеширање внатре во мрежата, Вмрежување фокусирано на информации, Cloud Computing, софтверски дефинирани мрежи и виртуелизација на мрежни функции.

Џун Би доби дипл., м-р и д-р. дипломирал по компјутерски науки на Универзитетот Цингхуа, Пекинг, Кина, од 1990 до 1999 година. Од 2000 до 2003 година, тој бил научник за истражување на Одделот за истражување на комуникациите на Bell Labs и Центарот за напредни комуникациски технологии на Bell Labs, Њу Џерси, САД. Во моментов тој е редовен професор и директор на Одделот за истражување на мрежна архитектура и засилувач IPv6, Институтот за мрежни науки и киберпростор на Универзитетот Цингхуа, и доктор на науки. Супервизор со Одделот за компјутерски науки, Универзитетот Цингуа. Тој е постар член на IEEE, ACM и истакнат член на кинеската компјутерска федерација. Тој служеше како претседавач на Азија Фјучер Интернет Форум Управувачка група, претседател на работилницата INFOCOM НОМ и работилницата ICNP CoolSDN и член на техничката програмска комисија на NFOCOM, ICNP, CoNEXT, SOSR итн.

Џианпинг Ву е професор по компјутерски науки и директор на Центарот за истражување на мрежи, Универзитетот Цингхуа, Пекинг, Кина. Од 1994 година, тој е одговорен за кинеската мрежа за образование и истражување (CERNET), која е најголемата академска мрежа во светот како директор и на Мрежниот центар и на Техничкиот одбор. Тој служеше како претседател или член на програмскиот комитет за многу меѓународни конференции, како што е претседател на FORTE/PSTV'1999 година и член на програмскиот комитет на INFOCOM'2002, ICNP'2001 и 2006, FORTE/PSTV' 1995-2003 и TESTCOM' 1995 година – 2006 година итн. Неговата област на специјализација вклучува компјутерска мрежа со голема брзина, Интернет и неговите апликации, тестирање на мрежен протокол и формален метод.


Заклучок

Времето и RL во најголем дел се проучувани одделно, што доведува до главно непреклопувачки пресметковни модели. Сепак, овде тврдевме дека овие модели всушност споделуваат некои важни заедничкости и нивното усогласување може да обезбеди унифицирано објаснување за многу бихејвиорални и нервни феномени. Додека во овој краток преглед само скициравме таква синтеза, нашата цел е да го засадиме семето за идно теоретско обединување.

Едно отворено прашање се однесува на тоа како да се усогласат различните теоретски идеи за претставувањето на времето кои беа опишани во овој труд. Нашата синтеза предложи централна улога за дистрибуирани елементи претставување на времето како што се микростимулите на Лудвиг и сор. (2008). Дали наместо тоа може да се користи претстава што произлегува од моделите на полумарков или пејсмејкер-акумулатор? Ова можеби е можно, но има неколку причини да се претпочита застапеноста на микростимулите. Прво, микростимулите природно се позајмуваат на архитектурата за апроксимација на линеарна функција која е широко користена во RL моделите на базалните ганглии. Спротивно на тоа, полу-Марков модел бара дополнителна компјутерска машинерија и не е очигледно како да се вклучи моделот пејсмејкер-акумулатор во теоријата на RL. Второ, полу-Марков модел ја зема предвид врската помеѓу временската прецизност и должината на интервалот за сметка на отстапувањето од нормативната рамка RL. Трето, како што забележавме претходно, моделите на пејсмејкер-акумулатор имаат голем број други слабости (види Staddon and Higa, 1999, 2006 Matell and Meck, 2004 Simen et al., 2013), како што се недостаток на скромност, неверојатни неврофизиолошки претпоставки и неточни предвидувања во однесувањето. Сепак, ќе биде интересно да се истражат кои аспекти од овие модели можат успешно да се вградат во следната генерација на RL модели.

Изјава за конфликт на интереси

Авторите изјавуваат дека истражувањето е спроведено во отсуство на какви било комерцијални или финансиски односи кои би можеле да се толкуваат како потенцијален конфликт на интереси.


Концептот за експлоатација и истражување е инхерентно поврзан со човечката природа, каде што ние, како луѓе, претпочитаме познат во споредба со непознатото. На пример, одење во ресторан, можете да изберете да одите во вашиот омилен ресторан бидејќи веќе ви се допаѓа храната таму, но освен ако и додека не пробате друг ресторан, нема да знаете дали постои подобар ресторан.

Оттука, експлоатацијата е одење или правење на истата акција, која дава најдобра вредност од една состојба (најчесто се нарекува Алчна акција), додека истражувањето е да се испробаат нови активности кои можат да дадат подобар поврат на долг рок, иако непосредната награда можеби не е охрабрувачки. Во горниот дијаграм, ако агентот размислува само за непосредна награда следејќи ја црвената патека за да ја добие максималната награда, подоцна ќе открие дека сината патека што има поголема вредност дури и преку непосредна награда е помала. Затоа е потребно истражување за да се постигне подобар долгорочен поврат.


Избор на домен за засилено учење

Еден начин да се замисли автономен агент за учење за засилување би бил како слеп човек кој се обидува да се движи низ светот само со своите уши и бел стап. Агентите имаат мали прозорци што им овозможуваат да ја согледаат својата околина, а тие прозорци можеби не се ни најсоодветен начин за да го согледаат она што го опкружува.

Дали сте заинтересирани за засилено учење?

Автоматски примени RL на случаи на употреба на симулации (на пр. центри за повици, складирање итн.) користејќи Pathmind.

(Всушност, одлучувајќи кои видови на влезот и повратните информации на кои вашиот агент треба да обрне внимание е проблем кој тешко се решава. Ова е познато како избор на домен. Алгоритмите што учат како да играат видео игри најчесто можат да го игнорираат овој проблем, бидејќи околината е создадена од човек и строго ограничена. Така, видео игрите ја обезбедуваат стерилната средина на лабораторијата, каде што може да се тестираат идеите за засилено учење. Изборот на домен бара човечки одлуки, обично врз основа на знаење или теории за проблемот што треба да се решат на пр. Избирањето на доменот на влез за алгоритам во самоуправувачки автомобил може да вклучи избор да вклучи радарски сензори покрај камерите и GPS податоците.)


Учење со временска разлика

Откритието на знак fERN покажа дека учесниците ги оценувале средните состојби во однос на идната награда. Овој резултат е конзистентен со класа на TD модели во кои кредитот се доделува врз основа на непосредните и идните награди. За да оцениме дали резултатите од однесувањето и ERP го одразуваат таков процес на RL, ги испитавме предвидувањата на три RL алгоритми: актер/критичар (Barto, Sutton, & Anderson 1983), Q-учење (Watkins & Dayan, 1992) , и SARSA (Rummery & Niranjan, 1994). Дополнително, разгледавме варијанти на секој алгоритам со и без траги за подобност (Sutton & Barto, 1998).

Модели

Актер/критичар

Моделот актер/критичар (AC) учи функција за претпочитање, стр(с, а), и функција на државна вредност, В(с). Функцијата за претпочитање, која одговара на актерот, овозможува избор на дејство. Функцијата држава-вредност, која одговара на критичарот, овозможува евалуација на исходот. По секој исход, критичарот ја пресметува грешката во предвидувањето,

Параметарот на временскиот попуст, γ, контролира колку стрмно се намалува идната награда, а критичарот ја третира идната награда како вредност на следната состојба. Критичарот користи грешка во предвидување за да ја ажурира функцијата со состојба на вредност,

Параметарот за стапка на учење α, контролира колку се пондерирани неодамнешните резултати. Со користење на грешка во предвидувањето за приспособување на вредностите на состојбата, критичарот учи да го предвиди збирот на непосредната награда, рт+1, и намалената вредност на идната награда, γ· В(ст+1).

Актерот исто така користи грешка во предвидувањето за да ја ажурира функцијата за претпочитање,

Со користење на грешка во предвидувањето за приспособување на поставките за дејство, актерот учи да избира поволни однесувања. Веројатноста за избор на дејство, π(с, а), се одредува со правилото за одлучување softmax,

Параметарот за бучава за избор, τ, го контролира степенот на случајност при изборот. Одлуките стануваат стохастички како τ се зголемува, а одлуките стануваат детерминистички како τ се намалува.

Q-учење

AC и Q-учењето се разликуваат на два начина. Прво, Q-learning користи функција акција-вредност, П(с, а), за избирање дејства и за оценување на исходите. Второ, Q-учењето ја третира идната награда како вредност на оптималната акција во состојба т+1,

Агентот користи грешка во предвидување за да ги ажурира вредностите на акцијата (Ек. 6), и агентот избира дејства според правило на одлука за softmax.

САРСА

Како и Q-учењето, SARSA користи функција за вредност на акција, П(с, а), за избирање дејства и за оценување на исходите. Меѓутоа, за разлика од Q-learning, SARSA ја третира идната награда како вредност на вистинското дејство избрано во состојба т+1,

Агентот користи грешка во предвидување за да ги ажурира вредностите на акцијата (Ек. 6), и агентот избира дејства според правило на одлука за softmax.

Траги за подобност

Иако RL алгоритмите обезбедуваат решение за проблемот со временската доделување кредити, трагите за подобност можат во голема мера да ја подобрат ефикасноста на овие алгоритми (Sutton & Barto, 1998). Трагите за подобност обезбедуваат привремена евиденција на настани како што се посета на држави или избирање дејства, и тие ги означуваат настаните како подобни за ажурирање. Истражувачите применија траги за подобност за модели на однесување и нерви (Богач, МекКлур, Ли, Коен и Монтега 2007 Гурекис & x0006 Loveубов, 2009 Пан, Шмит, Викенс, и#x00026 Хиланд 2005). Во овие симулации, ние го искористивме фактот дека трагите за подобност го олеснуваат учењето кога доцнат одделни акции и награди (Sutton & Barto, 1998).

Во AC, трагата на состојбата се зголемува кога се посетува состојбата, а трагите бледнеат според параметарот на распаѓање λ,

Грешката во предвидувањето се пресметува на конвенционален начин (Равенство 1), но сигналот за грешка се користи за ажурирање на сите состојби според нивната подобност,

Посебни траги се зачувуваат за парови на дејствија на состојбата– со цел да се ажурира функцијата за претпочитање, стр(с, а). Слично на тоа, во Q-learning и SARSA, трагите се зачувуваат за состојбата–акциони парови со цел да се ажурира функцијата акција-вредност. П(с, а).


Фусноти

Прилози на авторот: P.W.G. напиша весникот.

Авторот не изјавува дека нема конфликт на интереси.

Овој труд произлегува од Артур М. Саклер колоквиум на Националната академија на науките, „Квантификација на однесувањето“ одржан од 11 до 13 јуни 2010 година, во зградата AAAS во Вашингтон, ДЦ. Комплетната програма и аудио датотеките на повеќето презентации се достапни на веб -страницата на НАС на www.nasonline.org/quantification.

Оваа статија е директно поднесување на PNAS.

↵*It is important to acknowledge that there are alternative views of the function of these neurons. Berridge (53) has argued that dopamine neurons play a role closely related to the one described here that is referred to as incentive salience. Redgrave and Gurney (54) have argued that dopamine plays a central role in processes related to attention.


Model-free prediction

Dynamic programming enables us to determine the state-value and action-value functions given the dynamics (model) of the system. It does this by mathematically using the Bellman equations and plugging in the dynamics (rewards and probabilities).

If the model (rewards and probabilities) of the system is not known a priori, we can empirically estimate the value functions for a given policy. We do this by taking actions according to the given policy, and taking note of the state transitions and rewards. By making enough number of trials, we are able to converge to the value functions for the given policy.

Monte-Carlo learning

This applies to experiments which are run as episodes. Each episode terminates and next episode is independent of the current episode. As an example, when a board game is played, each new game constitutes a separate episode.

Given a policy, action is taken in each state according to the policy. For a state that is arrived at time , return for a particular run through the termination of the episode is calculated:

Here, is the reward obtained by taking action in the state at time .

Such returns are added for all the episodes during which the state is visited to obtain total return for the state:

And, number of episodes (or in an alternate method, number of visits??) that the state is visited is calculated.

Value of the state is estimated as mean return , since by law of large numbers as .

Note that running average return can calculated online (real-time) as the episodes are run instead of calculating it only after all episodes are completed as follows:

In practice in online learning scenario, rather than using for weighing the return from current episode, a constant factor with is used. This leads to the formulation:

What is the reasoning? Rather than the average over all episodes, returns from recent episodes is given more weight than returns from old episodes. Returns from episodes are given weights that exponentially decrease with time.

Temporal-Difference (TD) learning

In contrast to Monte-Carlo learning, Temporal-Difference (TD) learning can learn the value function for non-episodic experiments.

In Monte-Carlo learning, we run through a complete episode, note the “real” return obtained through the end of the episode and accumulate these real returns to estimate the value of a state.

In TD learning, we do as follows:

  1. we initialize the value for each state.
  2. we run the experiment (according to the given policy) for a certain number of steps (not necessarily to the end of the episode or experiment). The number of steps we run the experiment is identified as -step TD (or TD(), for short) learning.
  3. we note the reward obtained in these steps.
  4. We then use the Bellman equation to estimate the return for the remaining of the experiment. This estimated return is . This estimated total return is called TD target.
  5. We update similar to online Monte-Carlo learning except that here, we use estimated return rather than the “real” return. That is, we update using: . The quantity is called TD error.

How do we determine in TD() learning? We don’t. In what is called TD() learning, we use geometric weighting of estimated returns of all steps to obtain:


Reinforcement Learning Tutorial

If you are looking for a beginner’s or advanced level course in Reinforcement Learning, make sure that apart from a basic introduction, it includes a deep delving analysis of RL with an emphasis upon Q-Learning, Deep Q-Learning, and advanced concepts into Policy Gradients with Doom and Cartpole. You should choose a Reinforcement Learning tutorial that teaches you to create a framework and steps for formulating a Reinforcement problem and implementation of RL. You should also know about recent RL advancements. I suggest you visit Reinforcement Learning communities or communities, where the data science experts, professionals, and students share problems, discuss solutions, and answers to RL-related questions.

Machine learning or Reinforcement Learning is a method of data analysis that automates analytical model building. It is a branch of artificial intelligence based on the idea that systems can learn from data, identify patterns and make decisions with minimal human intervention.

Most industries working with large amounts of data have recognized the value of machine learning technology. By gleaning insights from this data – often in real time – organizations are able to work more efficiently or gain an advantage over competitors.

Data Analytics courses by Digital Vidya

Data Analytics represents a bigger picture of Machine learning. Just as Data Analytics has various categories based on the Data used, Machine Learning also expresses the way one machine learns a code or works in a supervised, unsupervised, semi-supervised and reinforcement manner.

To gain more knowledge about Reinforcement and its role in Data Analytics you may opt for online or classroom Certification Programs. If you are a programmer looking forward to a career in machine learning or data science, go for a Data Analytics course for more lucrative career options in Inductive Logic Programming. Digital Vidya offers advanced courses in Data Analytics. Industry-relevant curriculums, pragmatic market-ready approach, hands-on Capstone Project are some of the best reasons for choosing Digital Vidya.

A self-starter technical communicator, capable of working in an entrepreneurial environment producing all kinds of technical content including system manuals, product release notes, product user guides, tutorials, software installation guides, technical proposals, and white papers. Plus, an avid blogger and Social Media Marketing Enthusiast.

Date: 26th Jun, 2021 (Saturday)
Време: 10:30 AM - 11:30 AM (IST/GMT +5:30)



Коментари:

  1. Parttyli

    Според мое мислење, ја признавате грешката. Внесете ќе разговараме. Пишете ми во премиерот, ние ќе се справиме со тоа.

  2. Algrenon

    more details please

  3. Thurl

    Патем, оваа фраза е неопходна

  4. Cuthbeorht

    your thinking is very good

  5. Cleobis

    Се согласувам, тоа е смешна фраза

  6. Eliazar

    Мислам дека некој е заглавен овде



Напишете порака