Jinger Beer: #это_интересно (копипаста достойная) Как Гугл книги оцифровывал Вот вы думаете, почему мы еще не л

#это_интересно (копипаста достойная)

Как Гугл книги оцифровывал

Вот вы думаете, почему мы еще не летаем на другие планеты или у нас нет базы на Луне? Технологии не позволяют? Нет, просто это дорого и не выгодно каждой стране в отдельности. А вот если бы все страны планеты объединились с такой целью, то я думаю вполне реально было бы уже съездить на выходные на Марс.

Вот вам еще одна захватывающая история о том, как человеческая наивность и жадность задушили самый амбициозный IT-проект тысячелетия — проект по оцифровке всех-всех книг, которые только есть в мире.

Из идеи об оцифровке книг и возможности мгновенно искать в них любые отрывки текста родилась Google. Ларри Пейдж и Сергей Брин исходно задумывали создать поисковик не по интернету, но по книгам. Но вышло иначе, а к идее о том, чтобы перевести в цифровой формат все книги они вернулись только в начале “нулевых”.

Проект по оцифровке всех сначала американских, а затем вообще всех-всех книг получил кодовое название “Project Ocean”. Даже в самой Google те сотрудники, что не были в него вовлечены, рассматривали идею как нечто, слабо совместимое с реальностью. Нечто вроде нынешней “хотелки” Илона Маска отправить человека на Марс. Но проект поддерживали сам Пейдж и Брин, так что у него, разумеется, был более чем зеленый свет.
Начиная с 2002 года Google начала жадно сканировать все книги, до которых могла дотянуться. Для этого она договорилась с крупнейшими библиотеками США и организовала специальные центры сканирования, в которые книги из библиотек свозили фурами. Это не фигура речи — логистически “Project Ocean” был не менее сложным, чем технически.

Да, для реализации проекта Google пришлось придумать специальные “железо” и “софт” — ведь до нее на тот момент задачу быстрого сканирования миллионов книг еще никто не решал.

Сканируемая книга жестко закреплялась на специальном стенде, сверху на нее смотрели несколько фотоаппаратов, а лидар (“трехмерный радар”) определял точное положение листов книги в пространстве, чтобы позже специальное программное обеспечение учитывало это и “распрямляло” криво сфотографированные листы бумаги.

Таким образом, в Google решили самую большую проблему при оцифровке книг — их точном закреплении при сканировании, чтобы все получалось ровно и красиво. Тут “голова болела” об этом не у людей, а у программы и ее алгоритмов.

Интересно, что при всей технологической навороченности стендов для “сканирования” книг, листы вручную переворачивали люди — машины не могли делать это достаточно быстро и одновременно достаточно нежно. Ведь перевести в цифровой формат нужно было и старые, и очень старые книги, обращаться с которыми надо было исключительно аккуратно.
Оператор переворачивал страницу, нажимал на педаль на полу, камеры фотографировали, он снова переворачивал — и так до тысячи раз в час.

К августу 2010 года Google потратила на проект в общей сложности 400 млн. долларов. И объявила о том, что по ее подсчетам в мире 129 864 880 книг. И она хочет оцифровать их все.

Тут надо пояснить, что изначально Google вовсе не собиралась открывать полный доступ к книгам — юристы компании этого бы никогда не позволили, они не самоубийцы. Первоначальная идея была — обеспечить возможность поиска по всем-всем книгам с демонстрацией пользователю небольшого отрывка. Юридический отдел Google был уверен, что это попадает под определение “честного использования” и, забегая сильно вперед, отметим, что судебная система в итоге, через много лет тяжб, признала: у компании действительно есть право на подобное использование книг.

Также стоит сказать, что если в большинстве европейских стран книга становится бесплатно доступной обществу через 50 лет после смерти автора, то в США это так не работает. Закон об авторских правах таков, что уже не публикующиеся книги никто не имеет права опубликовать еще раз, не решив все вопросы с автором, издательством или наследниками их прав. То есть книга просто лежит и собирает пыль, а чтобы дать ей вторую жизнь, даже цифровую, надо потратить столько времени и денег, что проще ничего не делать.
Когда издатели и авторы поняли, что Google не шутит насчет “взять и все оцифровать”, они моментально возбудились. Шутка ли — компания просто взяла и скопировала содержимое крупнейших американских библиотек! Не спросив разрешения ни у кого, кроме библиотек! В общем, на нее подали в иск — и группа издателей, и Гильдия авторов.

Позже отдельные иски объединили в один коллективный иск, поданные от имени и для защиты прав всех авторов и издателей в США. Это важный, можно даже сказать ключевой момент всей юридической части истории.

В какой-то момент все вовлеченные стороны внезапно поняли — то, что сделала Google, может открыть новый гигантский рынок книг, особенно уже вышедших из обращения. Однако иск был подан, судебные заседания шли и вместе с ними пришло понимание, что если пустить дело на самотек и доводить его до логического конца, то проиграют все.

Так, если авторы и издатели выиграют в суде, то Google им что-то заплатит и прекратит сканировать книги, но не откроет к ним доступ читателям, поскольку не имеет на это права. Если выиграет Google — она сможет показывать читателям отрывки, но не продавать электронные копии книг целиком, поскольку опять же законы это запрещают.
И тогда стороны задумали, вероятно, самое грандиозное в истории соглашение по урегулированию коллективного иска.

Особенность американской судебной системы в том, что во время рассмотрения коллективных исков, представляющих интересы одного или нескольких пластов общества, вы можете в суде “расширить” нормы законов. При условии, что не вмешается Министерство юстиции и согласится судья, рассматривающий дело. Независимость судебной ветви власти во всей своей красе.

На протяжении 2,5 лет юристы Google, библиотек, издателей и Гильдии авторов вели сложнейшие переговоры, суть которых один из их участников кратко, но емко охарактеризовал как “четырехмерные шахматы” — надо было учесть интересы всех сторон.

Самая главная проблема, с которой столкнулись участники переговоров заключалась вот в чем. Ок, допустим, Google делает грандиозный интернет-магазин цифровых книг, в том числе и тех, авторы которых давно умерли, издательства закрылись и вообще непонятно, кому принадлежат права. Кому платить причитающуюся плату? Установление прав на получение денег в каждом конкретном случае стоило бы намного больше, чем любые возможные выплаты. То есть чисто экономически это было бессмысленно.

Но эту проблему решили, придумав создать единое агентство, которому бы шла плата за все старые книги. Наследники авторов и издателей могли бы в него обращаться за своей долей, а часть полученных средств там бы тратили на установление авторства. Поскольку обращались бы, конечно, далеко не все, то схема имела экономический смысл — кому все равно, “спонсировали” бы тех, кто хотел бы, чтобы ему заплатили. Причем правообладатели и авторы в любом случае получали бы 69% от цены электронной книги, а Google бы довольствовалась остальным.

Самое главное — при этом обходились бы нормы американских законов, запрещающих повторную публикацию книг, права на которые ужа давно утратили свою силу и не были заново оформлены.

Грандиозность соглашения привлекла внимание Министерства юстиции США, которое начало расследование и попросило всех, кто возражает против этого соглашения “говорить сейчас или молчать вечно”.

Разумеется, возражения поступили. От Microsoft и Amazon с технологической стороны, а также от нескольких тысяч авторов, многие из которых, похоже, не до конца поняли суть соглашения. Против высказывались и многие уважаемые в “книжном” сообществе люди.

По мнению участников тех переговоров, активное противление сделки со стороны “авторитетов” решило вопрос — в Минюсте США вряд ли бы вняли только доводам Microsoft о том, что Google “нечестно” получает доступ ко всем печатным книгам (“Бо-о-о — главный конкурент против!”); не послушали бы там и Amazon, которая на тот момент контролировала 80% рынка электронных книг (“Бу-у-у — монополист на рынке возражает против нового игрока!”).
Как полагают отдельные участники переговоров, среди тех авторитетных людей, что высказывались против соглашения, бытовало мнение о том, что сделку стоит завернуть, но потом Конгресс США все равно внесет нужные поправки в законы.

Однако они не понимали, что законотворцев какие-то старые книги не интересуют от слова “совсем”: с их помощью не выиграешь выборы и не создашь новые рабочие места. “Они, похоже, не понимали, как работает реальный мир”, — с горечью замечает участник тех переговоров.

В итоге Минюст США высказал свое очень авторитетное мнение: судье не стоит одобрять сделку, поскольку она а)выходит за рамки сути иска (а иск был о том, можно ли Google показывать выжимки из книг); б)слишком эксклюзивная и создает очень плохой прецедент.

В самом деле — если бы Google договорилась с противниками-ставшими-партнерами в рамках процесса урегулирования коллективного иска, то любой другой технологической компании для получения таких же прав на создание подобного магазина электронных книг пришлось бы заново пройти весь путь. То есть: оцифровать книги —> быть засуженной правообладателями и авторами —> договориться с ними. По мнению чиновников Минюста США, это вообще никуда не годилось. Специально нарушать закон чтобы обойти закон?! Это перебор.

Ну и включить постфактум в иск в качестве ответчиков Microsoft, Amazon и кто бы там еще захотел создать свою цифровую библиотеку такого же масштаба — тоже не было никакой возможности. Это уж было совсем жесткое испытание для системы коллективных исков США, она бы такое не перенесла.

В итоге судья сделку не одобрил, в своем заключении процитировал Минюст США.

Формально в итоге победила, как мы сказали в самом начале, Google — ей позволено показывать отрывки из оцифрованных книг. Но проиграли — все. Читатели не получили гигантской цифровой библиотеки из всех-всех когда-либо напечатанных книг. Издатели и авторы не получили возможности получать постоянно небольшую денежку от их продажи. А Google “заморозила” траты в размере 400 млн. долларов. Даже выиграв, компания охладела к своему проекту и больше не сканирует книги. Кончился запал.

Сегодня где-то далеко на серверах Google лежат 50-60 петабайтов оцифрованных книг. Вот они, только руку протяни. Но доступ к ним имеют лишь несколько инженеров компании, ответственных за то, чтобы никто другой не получил к этим книгам доступ.

Два последних абзаца статьи настолько хороши и от них становится так больно, что мы их просто переведем:

Я спросил у тех, кто занимался этим [в Google] раньше: “Что надо сделать для того, чтобы эти книги были доступны всем?”. Я хотел знать — насколько сложно было бы открыть к ним доступ. Что стоит между нами и цифровой публичной библиотекой из 25 млн. томов?

“У тебя были бы большие проблемы [юридического характера], — сказали мне — но все, что надо сделать — написать один запрос к базе данных. Так доступ бы переключился с “Выкл.” на “Вкл.”. На исполнение такой команды нужно несколько минут”.

PS. США и выращенная ими копирастия – тормоза прогресса, тюремщики всемирного интеллекта.

https://masterok.livejournal.com/9077062.html

11 апреля 2023

Отключить рекламу

3 комментариев из 14

Показать ещё 11 комментариев

Odio inventar nombres

11 апреля 2023

В этом архиве действительно полно уже никому не нужного старья.

Там не так всё однозначно со старыми изданиями, смотря какое «старьё».

Вот у меня среди учебников по аналитической геометрии есть издание от 1965 года: Н.Е.Кочин «Векторное исчисление и начала тензорного исчисления». Старьё? Это лучшее изложение материала, которое я когда-либо встречал. Потому что там изложено не галопом по европам, как при современном аксиоматическом изложении, а настолько детально, что поймёт стул, на котором я сижу. Этот материал позволяет понять на интуитивном уровне, откуда вообще берутся эти аксиомы, почему они полезны и зачем именно так определять все действия с векторами.

И таких много примеров. Учебник общей химии (Н.Л.Глинка, 1955) чего стоит. Да там половина информации такая, что сейчас её можно найти только в даркнете. Либо коммерческой тайной стала, либо ещё похуже. И даже то, что некоторые научные данные устарели, никак не делает его менее достойным. В современных переработанных изданиях информация не только добавлена или скорректирована, но и изъята — а вот это уже пиздец. (Прямо как изъятие учебников тёмной магии министерством в ГП — потому что она тёмная, а значит злая, за изучение (не за использование во вред людям!) — Азкабан).

Однозначно, старые учебники по фундаментальным основам дисциплин были намного лучше. Это уже потом можно по верхушкам скакать, когда будет интуитивное понимание всего базового материала.

Показать полностью

	Заяц 11 апреля 2023
Odio inventar nombres А я разве говорил, что именно этот учебник плох?

Odio inventar nombres

11 апреля 2023

Заяц, я только уточняю, что к «старью» по умолчанию я бы относился с уважением. Там есть много такого фундаментального, что с трудом можно найти в современном образовании. И даже если учебник действительно устарел, то когда-то он был той базой, на основе которой получилась современная версия знаний. А знать базу мне никогда не вредило.