Матемаг: #моё #размышления В подробности структуры ChatGPT особо никогда не вникал, но тот "нюанс", что вмес

#моё #размышления

В подробности структуры ChatGPT особо никогда не вникал, но тот "нюанс", что вместо сбора вероятностей элементов текста создаётся функция, которая предсказывает эти вероятности (аппроксимирует распределение вероятностей) - эта функция и есть, собственно, основная нейронка, большая языковая модель (LLM) - от меня скрывался. Действительно, числа текстов даже на английском не хватает для сбора хорошей статистики по сочетаниям всех возможных элементов текста, особенно длинных последовательностей, многие из которых вообще могут быть уникальны (встречаться в единственном тексте) или очень редки, несмотря на ординарность, просто потому что уникальность растёт по мере роста длины последовательности. Поэтому вероятности последовательностей элементов не собираются как таковые - вместо этого на текстах учится нейронка так, чтобы научиться предсказывать вероятности наиболее близко к текстовой базе, в т.ч. для уникальных последовательностей (потому что уникальны они только из-за уникальности контекста, в близких контекстах будут встречаться чаще, но контексты ещё более уникальны, чем последовательности, их базу, думаю, физически невозможно собрать). То есть, по сути, нейронка используется не как генератор текста, а как генератор вероятностей элементов текста. А уже потом остальная часть программы работает с этими вероятностями, в т.ч. та любопытная часть, которая с некоторой вероятностью (отдельной от тех, о которых мы говорили выше) выбирает не наивероятнейшее продолжение фразы, а какое-нибудь другое - и текст получается живым и даже уникальным (в смысле, та же самая версия ChatGPT из-за этого нюанса будет генерить на один и тот же вход разные выходы). То есть, повторю, основная нейронка не учится продолжать текст токен за токеном. Нет, вместо этого она учится указывать вероятности (и, соответственно, вероятные токены) следующих токенов (= элементов, на которые разбивается текст). А уже потом с этим распределением вероятностей (которое выдаст обученная нейронка) можно как-то генерить текст - или выбирать самое вероятное продолжение, или чуть менее, или чередовать, или ещё как, важно, что нейронка работает не как функция по отношению к генерации текста (т.е. не как предсказатель следующего токена), а как МЕТАфункция, т.е. она предсказывает разброс вероятностей генерации следующего токена. И уже к этой метафункции прикручивается функция-генератор.

2 июня 2023

Отключить рекламу