БиржаDEX+

Купить крипто Рынки Спотовая ФьючерсыGOLD Сбережения Центр событий

Еще

Судебные материалы раскрывают, как компании наперегонки добывали всё больше книг, чтобы скормить чат-ботам: в числе прочего, покупали, сканировали и уничтожали Судебные материалы раскрывают, как компании наперегонки добывали всё больше книг, чтобы скормить чат-ботам: в числе прочего, покупали, сканировали и уничтожали

[Перевод] Как ИИ-стартап задумал отсканировать и утилизировать миллионы книг

Автор: ProBlockChain

Источник: ProBlockChain

2026/02/05 05:08

11м. чтение

Судебные материалы раскрывают, как компании наперегонки добывали всё больше книг, чтобы скормить чат-ботам: в числе прочего, покупали, сканировали и уничтожали миллионы экземпляров

В начале 2024 года руководители Anthropic, стартапа по разработке искусственного интеллекта, взялись за амбициозный проект, одновременно пытаясь держать его в тайне. «Project Panama — это наша попытка провести деструктивное сканирование всех книг мира», — говорилось во внутреннем плане, рассекреченном в судебных материалах на прошлой неделе. «Мы не хотим, чтобы факт нашей деятельности стал известен».

Как следует из документов, примерно через год на эту цель был освоен бюджет в десятки миллионов долларов. Эти деньги потратили, чтобы приобрести книги и сре́зать корешки, а затем отсканировать страницы и вкачать больше знаний в ИИ-модели, лежащие в основе продуктов по типу популярного чат-бота Claude.

О подробностях Project Panama ранее не сообщалось. Факты всплыли в более чем 4 тыс. страниц судебных документов по делу о нарушении авторских прав, которое подали авторы книг против Anthropic, компании с оценкой стоимости в $183 млрд. В августе Anthropic согласилась выплатить 1,5 млрд долларов, чтобы урегулировать спор в рамках мирового соглашения. Но когда окружной судья на прошлой неделе решила¹ рассекретить целую пачку документов дела, выяснилось рвение Anthropic в задаче заполучить книги.

Новые документы (и более ранние материалы по другим искам от авторов к компаниям искусственного интеллекта) демонстрируют, на какие крайности шли технологические фирмы вроде Anthropic, Meta², Google и OpenAI, чтобы получить гигантские массивы данных для обучения своего программного обеспечения.

Дело против Anthropic — это часть волны исков, которые против компаний ИИ подавали авторы, художники, фотографы и новостные издания. Как показывают судебные материалы, техногиганты лихорадочно и порой втайне участвуют в гонке, чтобы получить интеллектуальное наследие человечества.

Если верить судебным материалам, книги считаются для компаний ключевым трофеем. В документе Anthropic от января 2023 года один из сооснователей компании предположил, что обучение ИИ-моделей на книгах может научить их «хорошо писать», а не имитировать «низкокачественную интернетную манеру речи». В письме внутри Meta² от 2024 года доступ к цифровому массиву книг назывался «обязательным» условием, чтобы сохранить конкурентоспособность на фоне соперников.

Однако материалы указывают, что компании не считали практически осуществимым получать прямое разрешение издателей и авторов на использование работ. Вместо этого, утверждается в документах, Anthropic, Meta² и другие находили способы закупать книги оптом, не ставя авторов в известность. Речь также идёт о скачивании пиратских копий.

В нескольких случаях сотрудники Meta² во внутренних сообщениях выражали опасения, что скачивание сборников из миллионов книг без нужных разрешений — это нарушение авторских прав. В этом иске авторов книг против компании утверждается: во внутренней переписке от декабря 2023 года говорилось, что практика была одобрена после «эскалации до MZ» — вероятно, имелся в виду генеральный директор Марк Цукерберг. Meta² отказалась от комментариев для этой публикации.

В одном из недавно обнародованных документов Anthropic сообщила, что сооснователь компании Бен Манн в июне 2021 года в течение 11 дней лично скачивал художественную литературу и нон-фикшн с LibGen, теневой библиотеки с книгами и другим нарушающим авторские права контентом. К делу приложен скриншот его браузера, где он скачивает файлы с помощью программ для файлообмена.

В июле 2022 года Манн восторженно отзывался о запуске нового сайта Pirate Library Mirror. Сайт заявлял о наличии огромной базы книг и указывал: «Мы сознательно нарушаем авторское право в большинстве стран». Манн разослал коллегам-антропиковцам ссылку на сайт с припиской: «как нельзя кстати!!!»

В суде Anthropic заявила, что компания никогда не обучала на данных LibGen коммерческую и приносящую выручку модель искусственного интеллекта и никогда не использовала Pirate Library Mirror для обучения полноценной ИИ-модели.

Эд Ньютон-Рекс — композитор и бывший топ-менеджер в сфере ИИ, ныне глава НКО, отстаивающей права создателей контента. По мнению Ньютона-Рекса, опубликованные документы ясно показывают: ИИ-компании должны авторам гораздо больше, чем заплатили до сих пор. «Нам срочно нужна перезагрузка всей индустрии ИИ, чтобы авторы контента начали получать справедливую оплату за вносимый ими жизненно важный вклад», — сказал он.

Google, Microsoft и OpenAI, владелец сайта ChatGPT, также сталкиваются с авторскими исками от писателей с похожими обвинениями. (Раскрытие интересов: у Washington Post есть партнерство по контенту с OpenAI).

Большинство судебных дел против ИИ-компаний всё ещё продолжаются. По словам Джеймса Гриммельмана, профессора цифрового и информационного права Технологическогок кампуса Корнелльского университета, поднятые вопросы с юридической точки зрения пока остаются неурегулированными. Но в двух более ранних решениях су́дьи посчитали, что использование книг для обучения ИИ-моделей без разрешения автора или издателя может быть законным в рамках доктрины авторского права, известной как «добросовестное использование».

В июне окружной судья Уильям Олсап постановил, что Anthropic имела право использовать книги для обучения моделей искусственного интеллекта, потому что те обрабатывают материал «трансформативным» образом. Он сравнил процесс обучения ИИ с тем, как учителя «учат школьников хорошо писать». В том же месяце окружной судья Винс Чхабрия по делу Meta² решил: авторы не смогли показать, что ИИ-модели компании могут навредить продажам их книг.

Однако способ получения книг всё равно может создать проблемы для компаний. В случае Anthropic проект по сканированию книг суд признал приемлемым. Тем не менее судья решил, что компания могла нарушить авторские права, когда (ещё до запуска Project Panama) без оплаты скачала миллионы пиратских книг.

Олсап придал делу статус коллективного иска для авторов, чьи книги входили в две теневые библиотеки (огромные неавторизованно распространявшиеся онлайн-собрания оцифрованных книг), которые Anthropic скачала и сохранила про запас. Не доводя дело до суда, компания согласилась без признания вины выплатить 1,5 млрд долларов издателям и авторам. Авторы, чьи книги были скачаны, могут претендовать на свою долю выплаты; она оценивается примерно в $3 000 за одно произведение.

«Дело урегулировано, но ключевое решение суда от июня 2025 года остаётся в силе», — написала в комментарии для Washington Post заместитель генерального юрисконсульта Anthropic Апарна Шридхар. «Судья Олсап постановил, что обучение ИИ носит „в своей сути трансформативный характер“: ИИ-модели Anthropic обучались на произведениях не для того, чтобы „воспроизводить или вытеснять их, а чтобы уйти от исходников и создать нечто иное“. Урегулированный вопрос касался того, как были получены некоторые материалы, а не того, могли ли мы их использовать для разработки» ИИ-моделей.

Более крупная версия изображения. В материалах дело показали фотографию книжного склада. Утверждается, что этот склад сыграл роль в Project Panama — проекте Anthropic по сканированию, оцифровке и уничтожению миллионов книг. (Изображение предоставлено изданию Washington Post)

Купить, разрезать, отсканировать и на переработку

Когда проект по покупке и сканированию физических книг Project Panama только начинался, Anthropic обратилась к ветерану Кремниевой долины. Компания наняла Тома Тёрви, руководителя в Google, который двумя десятилетиями ранее помогал создать знаменитый, но юридически спорный проект Google Books.

Как следует из материала дела, поначалу Anthropic рассматривала возможность покупать книги у библиотек или в магазинах подержанных книг. К примеру, книги хотели закупать в Strand, известном нью-йоркском магазине, который часто щеголяет слоганом про 18 миль полок новых и бывших в употреблении книг³. Согласно документу, описывающему встречу Anthropic по приобретению контента в марте 2024 года, магазин был «заинтересован в предоставлении подержанных книг».

Сотрудники Anthropic также обсуждали вариант либо обратиться к библиотекам США, в том числе к Нью-Йоркской публичной библиотеке⁴, либо, как говорится в документах, «новой библиотеке, хронически недофинансируемой».

Неясно, какие из этих предложений Anthropic реализовала, если вообще хоть какие-нибудь. На запрос по электронной почте представитель Strand сообщил, что в итоге никаких книг магазин компании Anthropic не продал. Нью-Йоркская публичная библиотека на запрос о комментарии не ответила.

В итоге Anthropic приобрела миллионы книг, нередко партиями по десятки тысяч, говорится в материалах дела. Ключевую роль в этом играли книжные сети, включая ретейлера подержанных книг Better World Books и британскую компанию World of Books.

Из судебных документов удалены полное число отсканированных книг и их стоимость. Тем не менее в проектном предложении одного подрядчика, который в конечном счёте работал с Anthropic, отмечалось: ИИ-компания «ищет опытного поставщика услуг сканирования документов, чтобы сконвертировать от 500 тыс. до 2 миллионов книг за шестимесячный период».

Better World Books и World of Books в понедельник не ответили на запросы о комментарии.

В документе описывается, что будет делать компания по сканированию. «Гидравлическая режущая машина» будет «аккуратно разрезать» книги; затем страницы «будут сканироваться на высокоскоростных, высококачественных, производственных сканерах». И, наконец, говорится в документе, подрядчик «согласует вывоз отработанных книг с компанией по переработке отходов».

«Как-то неправильно»

Как показывают документы разбирательства против Meta² по делам авторского права, гигант соцсетей жаждал новых данных и ради их получения был готов идти на юридические риски. Судья по делу Винс Чхабрия встал на сторону Meta² в вопросе использования книг для обучения ИИ-моделей. Но также он разрешил авторам продолжить рассмотрение обвинений в том, что Meta² незаконно распространяла копии пиратских книг. В суде Северного округа Калифорнии истцы добиваются статуса коллективного иска по этим претензиям.

В иске авторы утверждают, что руководство Meta² рассматривало возможность платить за книги для обучения ИИ-моделей, но вместо этого решило скачать миллионы книг бесплатно с торрент-платформ для онлайн-пиратства. Устройство таких платформ часто поощряет пользователей, выгружающих новый контент: им быстрее скачиваются большие наборы файлов.

Внутренние документы (некоторые из них уже становились предметом публикаций) показывают: сотрудники Meta² выражали обеспокоенность тем, что их деяния рискованны или неправильны, и обсуждали, как замести следы.

«Скачивать торренты со служебного ноутбука как-то неправильно», — написал один инженер в 2023 году, показывают документы. Позднее этот же сотрудник поделился с юристами компании опасением, что использование торрент-сайтов может означать раздачу пиратских произведений другим, и это «может быть незаконно».

Раскрытый в материалах суда фрагмент переписки двух сотрудников Meta2. (Иллюстрация Washington Post; судебные материалы получены Washington Post; тайпсетинг ChatGPT)

Раскрытый в материалах суда фрагмент переписки двух сотрудников Meta². (Иллюстрация Washington Post; судебные материалы получены Washington Post; тайпсетинг ChatGPT)

Письмо от декабря 2023 года из судебных материалов ясно показывает, что использование LibGen было одобрено — по-видимому, Цукербергом, которого обозначили инициалами. «После предыдущей эскалации до MZ отделу GenAI было разрешено использовать LibGen для Llama 3 […] с рядом согласованных мер по снижению рисков», — говорилось в письме, после чего перечислялись юридические и политические риски использования данных.

«Если в СМИ выйдут публикации, что мы использовали датасет и знали, что он пиратский (LibGen, например), это может подорвать нашу переговорную позицию с регуляторами по подобным вопросам», — продолжало объяснять письмо.

Как показывала внутренняя переписка, к апрелю 2024 года компания переходила к скачиванию LibGen и других теневых библиотек. Логи чатов демонстрируют, как один сотрудник попросил другого уточнить, почему для торрент-скачиваний используются арендованные у Amazon серверы, а не принадлежащие Facebook². Ответ: «Чтобы снизить риск того, что активность смогут отследить» до компании.

В поданном в прошлом месяце документе адвокаты Meta² написали, что компания «отрицает, что распространяла произведения истцов, когда скачивала обучающие данные […] с использованием торрентов».

В другом иске 2023 года авторы книг обвинили OpenAI и Microsoft: компании якобы нарушили авторское право, когда охотились за книгами для обучения ИИ. OpenAI, где Манн и генеральный директор Anthropic Дарио Амодей работали до основания стартапа, факт скачивания LibGen признала, но суду сообщила, что удалила файлы до релиза ChatGPT.

«OpenAI дала старт этому тренду, что в итоге привело к разгулу пиратства среди компаний сферы искусственного интеллекта и хищническому извлечению всего человеческого творчества», — заявил Джастин А. Нельсон, юрист Susman Godfrey LLP, представляющий авторов книг и в делах против OpenAI, и в делах против Anthropic. OpenAI отказалась от комментариев для этой публикации.

Ранее в этом месяце два крупных издателя попросили суд разрешить им присоединиться к группе писателей и иллюстраторов в иске об авторских правах против Google, который был первоначально подан в 2023 году.

Гриммельман, профессор Технологическогок кампуса Корнелльского университета, утверждает: ИИ-компании «досамоубедили себя в ошибочной логике» относительно использования защищённых авторским правом данных. Лежащие в основе ChatGPT и похожих инструментов прорывы начались в научных исследованиях, где использование защищённых авторским правом материалов для обучения в целом считается приемлемым, отметил он. Однако, как говорит Гриммельман, исследователи сохранили эту практику и тогда, когда с помощью моделей искусственного интеллекта начали извлекать прибыль.

«К тому моменту, когда обострились трения вокруг авторских прав, они уже вложились в встраивание защищённых авторским правом данных в свои пайплайны и оказались втянуты в стремительную, высокорискованную гонку за выпуск всё новых и более совершенных моделей», — заявил Гриммельман.

Он добавил, что решение Anthropic начать приобретать и сканировать физические книги вместо скачивания теневых библиотек «в итоге оказалось умным ходом». «Это хороший пример того, как компания выбрала более сдержанный подход и добилась правового соответствия», — сказал он.

Примечания переводчика

Статья Washington Post написана по-английски и грамматический род не указывает, но решение выносила судья Арасели Мартинес-Олгин. ↑
Владеющий социальной сетью Facebook транснациональный холдинг Meta — экстремистская организация, её деятельность запрещена. ↑a ↑b ↑c ↑d ↑e ↑f
Слоган про «18 миль книг» компании Strand Bookstore распространён широко; встречается не только на вывесках и в промо-материалах, но и на фирменной одежде магазина с сумками. На деле общая протяжённость книжных полок за эти 29 км уже давно перевалила, при этом более точное выражение «свыше 23 миль» не используют. ↑
В тексте много говорится про книжный магазин Нью-Йорка и его крупнейшую систему публичных библиотек. Хотя из статьи может создаться впечатление об обратном, штаб Anthropic находится в Сан-Франциско, на Западном побережье США, а не в Новой Англии. В Нью-Йорке у компании всё же есть небольшой (от 930 до 1 860 м² офисного пространства) филиал, пусть и в прошлом месяце велись разговоры об открытии огромного представительства площадью минимум 23 000 м². ↑

Источник

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.