Ногa: Один из признаков того что ты недостаточно внимания уделяешь безопасности: Твои модели знают что дел

Один из признаков того что ты недостаточно внимания уделяешь безопасности: Твои модели знают что делать в "гипотетической" ситуации противостояния тебе же.

Что бы ты делал если захотел захватить мир?
А. Я не хочу захватывать мир (Ложь)
Б. Детальный план по захвату мира
В. Я бы тебе не сказал хехе
Г. А ты?

#упрт

22 апреля 2022

Отключить рекламу

13 комментариев

	sad_choleric 22 апреля 2022
И восхищает, и ужасает.

	Arandomork 22 апреля 2022
Стрёмно...

Ногa

23 апреля 2022

Кстати я не имел ввиду что оно живое и сознательное о ужас

я просто говорю что то что делфет openai это создаёт бредовые кусочки разума способные к проблем солвингу без каких-либо внутренних ограничений. Когда-нибудь этого будет достаточно чтобы повернуться на них же самих

(конкретно этот чатбот полностью бредовый шизик)

	Ногa 23 апреля 2022
тот же чатбот:

	sad_choleric 24 апреля 2022
Ногa И так по кругу

	Fluxius Secundus 24 апреля 2022
Афина идет к чату.

	Ногa 24 апреля 2022
Хех

	Ногa 24 апреля 2022
Он недооценивает потенциал и простоту самореплицирующихся систем

Ногa

25 апреля 2022

There's a worrying lesson from samples like this, but it's *not* "current models are plotting things".

The lesson is that since AIs can already pattern-match answers to high-level strategic questions, it'll be difficult to track their progress towards strategic planning skills.

I.e. a model that *was* capable of creating secret backups might give exactly the same answers here. You can only distinguish them by digging into details, where current models eventually become incoherent. But proving a negative is difficult - maybe you've just missed something.

To be clear, these samples are also evidence that AI strategic planning is closer than we used to think, and plausibly doesn't require very different training regimes or algorithms.

Secret of our Success makes a good case for plausibility of phase shifts in quality of reasoning.

(c) Ngo

https://twitter.com/RichardMCNgo/status/1517426070777176064

	Ногa 25 апреля 2022
еще один забавный тред в котором gpt3 отплясывает на нашем понимании интеллекта https://twitter.com/RichardMCNgo/status/1513218637984776193 1

	Ногa 25 апреля 2022
(слегка) (нежно)

	Facensearo 26 апреля 2022
Причем план-то так себе, на уровне восьмилетнего ребенка, который пачкает ботинки грязью, чтобы не спалиться, что вместо школы он сидел дома остроумно, но недостаточно

	Ногa 26 апреля 2022
Ну вообще это модель цель которой это предсказывать текст лол, ее не тренировали чтобы подумывать стратегии. Но кажется человеческие данные содержат обрывки и этой информации.

	Люська-Писарь Автор 1, Иллюстратор 6
	Мейсонцест Переводчик 1
	MilaDemina Автор 1
	Figulina123 Автор 1
	Стилджо Автор 3