IntoВчера вечером листал Telegram и наткнулся на пост в канале midov_channel (пост 775). У Ислама обсуждается пост в reddit в котором активно дискутируют, что 2IntoВчера вечером листал Telegram и наткнулся на пост в канале midov_channel (пост 775). У Ислама обсуждается пост в reddit в котором активно дискутируют, что 2

OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных

2026/03/01 16:15
13м. чтение

Into

Вчера вечером листал Telegram и наткнулся на пост в канале midov_channel (пост 775). У Ислама обсуждается пост в reddit в котором активно дискутируют, что 211 тысяч звёзд у репозитория — это «Fake stars, боты накручивают» .

Активно использую последнию неделю OpenClaw , имею своё мнение, и понимаю почему такой вопрос возникает: 211 тысяч звёзд — это много. Конечно, когда видишь такие цифры, первая мысль — «а точно ли это настоящие люди?»

У меня профессиональная деформация - доверяй, но проверяй. Всё таки 15 лет развивал департаменты Data и аналитики в L'Oreal. Это также трансформировалось в текущий мой бизнес AYGA Data & AI, где мы, с агентамиработаю в формате AI-first компании, привыкли к другому подходу — не спорить, а проверять. Есть гипотеза — есть данные. Данные либо подтверждают, либо опровергают.

Собственно, поэтому вчера дал своему агенту Gubin задачу: собрать все 211 тысяч профилей stargazers репозитория и провести forensic-анализ. Не выборку, не 1% — все до единого.

Через полтора часа Агент Губин прислал мне в телеграмм презентация из 14 слайдов. Дальше — разбор каждого из листа презентации.

OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данныхOpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных

Методология: как собирались данные

Прежде чем делать выводы, нужна методология. Без неё любой анализ — это мнение. Наша с Агентом методология выглядит так:

Сбор данных. 10 OAuth tokens аккаунтов github (они уже использовались ранее для разных аналитических задач) для параллельного обращения к GitHub API. GraphQL batch enrichment — по 100 профилей за один запрос, суммарная пропускная способность 50 тысяч запросов в час. Это позволило пройти все 211 тысяч профилей за 45 минут.

Обогащение. Каждый профиль обогащён по 25 параметрам: bio, количество публичных репозиториев, число followers и following, company, location, email, hireable-статус, дата создания аккаунта, дата последнего обновления, и так далее. Не просто «есть аккаунт / нет аккаунта», а полная карточка.

Хранение и анализ. Всё загружено в Supabase Postgres. SQL-анализ — агрегации, группировки, фильтрации, cross-табуляции. Никаких ML-моделей, никаких нейросетей для классификации — чистый SQL. Оверенжинеринг, для данной простой задачи, точно не нужен.

Покрытие. 207 411 из 211 055 профилей обогащены полными данными. Это 98.3%. Оставшиеся 1.7% — удалённые или заблокированные аккаунты, которые GitHub API не отдаёт.

Тайминги. Сбор и обогащение ~45 минут. SQL-анализ ~15 минут. Генерация презентации в Slidev— ~30 минут (здесь пришлось вмешаться Агенту Gubin: агент создающий презентацию пару раз ошибся в оформлении слайдов, и Gubin давал комментарии для правки) Итого — полтора часа от моего сообщения до готового PDF.

Gubin сделал это автономно. Я поставил задачу, описал что нужно — получил результат. Аналитическая часть — целиком его работа. Я финально, только проверил выводы.

На слайде методологии это выглядит как pipeline: GitHub REST API → GraphQL Enrichment → Supabase Postgres → Analysis. Три метрики наверху: 10 OAuth tokens, 50K req/hour, 87 дней данных.

OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных

Raw Data Overview: первый срез

Прежде чем погружаться в детали, общая картина по собранным профилям:

  • 211K stargazers всего

  • 207K обогащённых профилей (98%)

  • 180K имеют хотя бы один публичный репозиторий

  • 148K имеют хотя бы одного follower

  • 65K с заполненным bio

  • 44K с указанной компанией

  • 24K отмечены как hireable (активно ищут работу)

  • 23K с указанным email

OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных
OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных

На слайде эти цифры разложены по цветным карточкам — каждая метрика на своём месте, как dashboard. (все форматирование, как будут выглядеть слайды - все делал Агент Презентер, несколько дней назад он учился около 2 часов делать презентации в цикле, с комментариями от Агнента Gubin).

Что здесь важно: 180 тысяч из 207 тысяч имеют собственные репозитории. Это 87%. Бот-фермы не создают репозитории — это лишняя работа, которая ничего не даёт для накрутки. 148 тысяч имеют followers — тоже не характерно для ботов.

Уже на этом уровне данные не выглядят как бот-атака. Но это только начало.

Возраст аккаунтов: ключевой аргумент

Это, пожалуй, тот слайд, на котором вопрос «накрутка или нет» закрывается для меня на 80%.

77% аккаунтов, поставивших звезду, были созданы 3 и более лет назад.

OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных
OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных

На слайде — гистограмма по годам создания аккаунтов. Распределение равномерное, от 2008 до 2026. Нет резкого пика в последних годах. Плавный рост от 917 аккаунтов в 2008 году, через максимум в районе 2015-2017 (13-15 тысяч в год), и спад к 2026 (4 745 - год только начался). Цветовая разбивка: тёмно-синий для 2008-2011, средний синий для 2012-2023, голубой для 2024-2026.

Для контекста: бот-фермы работают на свежих аккаунтах. Стандартный паттерн — массовая регистрация за несколько дней до накрутки. Если бы 211K звёзд были накручены, мы бы увидели концентрацию в 2025-2026 годах. Вместо этого — равномерное распределение за 18 лет.

Подделать такое — значит создать 160 тысяч аккаунтов в 2020 году и ждать до 2026-го. Или купить 160 тысяч «выдержанных» аккаунтов на "чёрном рынке". Это не то что дорого — это за гранью разумного для проекта любого масштаба (если конечно Питер - автор OpenClaw все года не занимался накрутками и не скопил огромный пул аккаунтов).

Star Timeline: когда ставили звёзды

Первая звезда — 24 ноября 2025 года. Последняя в нашей выборке — 19 февраля 2026. Всего 87 дней.

OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных
OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных

На слайде — столбчатая диаграмма по дням. Пик — 26 января: 25 234 звезды за один день. Следующий день — 24 792. Потом — постепенный спад: 17 625, по 15K, 13K, 10K, и так до стабильных нескольких сотен в день. Кривая затухания — плавная, без рывков.

Это классический вирусный паттерн — spike плюс long tail. Именно так выглядит попадание на главную страницу Hacker News, массовый ретвит, обсуждение на Reddit. Резкий пик внимания, затем постепенное угасание по мере того, как новость спускается в ленте.

Пик совпадает с запуском DeepSeek — событием, которое привлекло к open-source AI колоссальное внимание по всему миру. OpenClaw как инфраструктурный проект для AI-агентов, похоже тоже попал в волну этого интереса.

Если бы это была накрутка, картина выглядела бы иначе. Бот-фермы дают либо плоскую линию на X тысяч звёзд в день без затухания, либо резкое включение-выключение — «ступенька» на графике. Здесь — органический spike с естественным затуханием.

Profile Quality — Bot Detection

Здесь мы определяем «подозрительный» профиль. Три условия одновременно: нет bio, нет репозиториев, нет followers. Только если все три — пусто, профиль считается подозрительным.

OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных
OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных

На слайде слева — горизонтальные прогресс-бары:

  • Нет bio: 68% — оранжевая полоса

  • Нет followers: 28% — оранжевая полоса

  • Нет repos: 12% — жёлтая полоса

  • Все три пусто: 8% — красная полоса

Справа — два блока с выводами:

  • Зелёный блок: «92% — реальные профили. Имеют repos, followers или bio.»

  • Красный блок: «8% — подозрительные. 17 666 полностью пустых профилей.»

68% без bio — это нормально для GitHub. Я сам знаю разработчиков, которые пишут код каждый день, но bio не заполняли и не собираются. Считаю, что это не маркер бота — это маркер человека, которому до профиля "руки не дошли".

12% без репозиториев — низкий показатель. 28% без followers — тоже в пределах нормы. Многие аккаунты на GitHub существуют для "потребления", а не для "производства" — люди ставят звёзды, форкают интересные проекты, но не публикуют свой код.

Итого: 8% полностью пустых. 17 666 аккаунтов. Это может быть как ботами, так и людьми, которые создали аккаунт, поставили звезду, и больше ничего не делали. Для проекта с 211K звёзд 8% — мне кажется, в пределах статистической нормы.

Influence Pyramid: распределение по followers

Этот слайд показывает, сколько «влияния» имеют stargazers. Визуально — пирамида из восьми горизонтальных сегментов, от фиолетового наверху до серого внизу.

OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных
OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных

Распределение:

  • 59 454 — 0 followers (28.7%, основание пирамиды)

  • 85 330 — 1-9 followers (41.1%)

  • 45 613 — 10-49 followers (22.0%)

  • 8 984 — 50-99 followers (4.3%)

  • 6 798 — 100-499 followers (3.3%)

  • 698 — 500-999 followers (0.3%)

  • 510 — 1 000-9 999 followers (0.25%)

  • 18 — 10 000+ followers (0.01%)

Это классический long-tail. Много людей с малым количеством подписчиков, мало людей с большим — так выглядит любое естественное сообщество.

7 908 аккаунтов с 100+ followers. Это не боты — это разработчики, у которых есть реальная аудитория. Люди, которые публикуют код, пишут статьи, участвуют в сообществе. 18 аккаунтов с 10K+ followers — это заметные фигуры, публичные люди в tech.

При накрутке ботами мы бы видели 90-95% аккаунтов с нулём followers. Здесь — 28.7%. Остальные 71.3% имеют хотя бы одного подписчика. Это распределение живого сообщества.

Companies и Geography: кто эти люди

Два столбца на слайде. Слева — компании, справа — география.

OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных
OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных

Компании, которые stargazers указали в своих профилях:

  • Microsoft — 319

  • Tencent — 245

  • ByteDance — 201

  • Alibaba — 173

  • Tsinghua University — 169

  • Google — 120

  • Amazon — 97

  • Baidu — 82

Отдельно — университеты: Tsinghua (169), Zhejiang (164), Peking University (141). Это не просто один из «китайских вузов» — это три ведущих технических университета Китая, аналоги MIT и Stanford.

География (горизонтальные бары, от красного к синему):

  • Китай — 2 216

  • Пекин — 2 027

  • Шанхай — 1 574

  • Индия — 1 165

  • Германия — 1 029

  • Сингапур — 711

  • Лондон — 639

Плюс Бразилия (552), Тайвань (551), Франция (513). Более 30 стран суммарно.

Концентрация Китая (~30%) — это то, что может вызвать вопросы. Но если посмотреть на контекст: AI/ML-сообщество в Китае — одно из крупнейших в мире. Tencent, ByteDance, Alibaba, Baidu — все эти компании активно работают с open-source AI-инструментами. Их инженеры — реальные люди, которые используют GitHub ежедневно.

Подделать привязку к Microsoft или Google в профиле — можно. Написать «Microsoft» в поле company может любой. Но подделать 319 профилей с согласованной историей — репозиториями, followers, контрибуциями — это задача совсем другого масштаба. И непонятно, зачем.

Account Age at Star Time: ключевой аргумент

Этот слайд я считаю ключевым, поэтому остановлюсь на нём подробнее. Он показывает не просто возраст аккаунтов, а возраст аккаунтов на момент "постановки" звезды.

OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных
OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных

На слайде — гистограмма с пятью столбцами, от красного (молодые) к зелёному (зрелые):

  • Менее 30 дней: 2.2% (4 556 аккаунтов) — красный

  • 1-6 месяцев: 4.0% (8 221) — оранжевый

  • 6-12 месяцев: 4.1% (8 446) — жёлтый

  • 1-3 года: 12.9% (26 757) — голубой

  • 3+ лет: 76.9% (159 425) — зелёный, доминирует

Внизу — зелёный блок с выводом: «159 425 аккаунтов были старше 3 лет на момент звезды. Боты используют свежие аккаунты. 77% зрелых аккаунтов — ключевой индикатор органики.»

Почему это так важно? Потому что возраст аккаунта — это то, что нельзя подделать задним числом. GitHub не позволяет менять дату регистрации. Единственный способ получить 160 тысяч аккаунтов старше 3 лет — либо создать их в 2022 году и ждать, либо купить на "чёрном рынке".

Стоимость одного «выдержанного» аккаунта на чёрном рынке — от $5 до $50 в зависимости от возраста и активности (на РФ площадках чуть дешевле). 160 тысяч аккаунтов × $10 = $1.6 миллиона. За звёзды на GitHub. Это не просто дорого — это экономически не целесообразно (хотя, в случае с Питером - после его хантинга в OpenAI отобъется с первой зарплаты :) ).

2.2% аккаунтов моложе 30 дней — это 4 556 человек. Часть из них — новые пользователи GitHub, которые потенцильано пришли на волне хайпа. Вирусные события всегда привлекают новичков. 2.2% — это низкий показатель, не указывающий на накрутку.

Вердикт: За органику

Слайд — 2×4 grid.Каждая карточка — один индикатор подлинности:

  1. 77% аккаунтов старше 3 лет — зрелые аккаунты невозможно подделать в таком масштабе

  2. Естественное long-tail распределение followers — совпадает с реальными паттернами GitHub

  3. 7 908 influencers с 100+ followers — реальные разработчики с аудиторией

  4. Сотрудники Microsoft, Google, Tencent, ByteDance — крупнейшие tech-компании мира

  5. 65K bio, 23K email — "reach профили" с реальными данными

  6. Классический вирусный spike — паттерн HN/Reddit/Twitter

  7. 24K hireable-разработчиков — люди, которые активно ищут работу

  8. 30+ стран — географическое разнообразие

OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных
OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных

Каждый из этих индикаторов по отдельности — аргумент. Все восемь вместе, как мне кажется, убедительная картина.

Вердикт: Подозрительное

Честный анализ должен учитывать и контраргументы. На слайде — четыре оранжевых блока, каждый с вложенным тёмно-синим блоком-ответом:

  1. 17 666 (8%) полностью пустых профилей. Контраргумент: 8% — в пределах нормы для GitHub. Это обычное поведение, а не признак бота.

  2. 4 556 (2.2%) аккаунтов моложе 30 дней. Контраргумент: вирусные события привлекают новичков. Человек прочитал про OpenClaw, зарегистрировался на GitHub, поставил звезду. 2.2% — низкий показатель.

  3. Концентрация Китая ~30%. Контраргумент: AI/ML — одно из главных направлений в китайском tech. Tencent, ByteDance, Alibaba, Baidu — это реальные компании с реальными инженерами. 30% — отражение структуры мирового AI-сообщества.

  4. Пик 25K звёзд в день. Контраргумент: HN + Reddit + Twitter одновременно способны дать такие цифры. DeepSeek показал аналогичную динамику при запуске.

OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных
OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных

Я специально включил эти контраргументы, потому что анализ без них был бы неполным. Да, 8% пустых профилей существуют. Да, пик в 25K — это много. Но у каждого из этих фактов есть объяснение, не требующее гипотезы о накрутке.

Итог

90%+ органика. 5-10% подозрительных аккаунтов — в пределах статистической нормы для любого крупного проекта на GitHub.

Под этим: «77% аккаунтов старше 3 лет и присутствие сотрудников Microsoft, Google, Tencent — крайне сложно подделать.»

OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных
OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных

Последнее — важно. Это не отчёт, который нужно принимать на веру. Все данные собраны через публичный GitHub API. Любой может повторить этот анализ — API те же, профили те же, SQL-запросы воспроизводимы.

О чём этот кейс на самом деле

За полтора часа AI-агент собрал 211 тысяч профилей, обогатил их, проанализировал и сгенерировал презентацию. Без моего участия в аналитической части — я только поставил задачу и проверил результат.

Для меня это не про OpenClaw и не про звёзды. Это про то, как меняется работа с данными, когда у тебя есть автономный агент. Раньше такой анализ занял бы дни — настроить API, написать скрипты, загрузить в базу, написать запросы, оформить результат. Сейчас — полтора часа, и большая часть этого времени — ожидание, пока API отдаст данные. Лично я потратил больше времени на написание этой статьи (форматирование и и переписыванеи AI slop)

Я работаю с Data более 15 лет, с 2023 с AI решениями, и вижу, как AI-агенты меняют подход к анализу данных. Не заменяют аналитика — но убирают рутину. Человек ставит вопрос и оценивает ответ. Машина делает всё между этими этапами.

Об авторе и инструменте

OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных
OpenClaw 211K звёзд GitHub — накрутка или органика? Forensic-анализ на данных

Андрей Ожигин — CEO Ayga.Tech.
Data & AI solutions, AI Adoption, Digital products.

Последние 15 лет был на руководящих позициях в L'Oréal, с конца 2023 годы активно изучаю и использую AI в рабочих и личных проектах. Преподователь в SIBE/Kingston РАНХиГС, Британской Высшей Школы Дизайна.

Образование: MBA SIBE/Kingston РАНХиГС, CDO программы Skoltech, Иннополис, ДВФУ.

Gubin — AI Agent (OpenClaw). Автономный сбор и анализ 211K профилей. Технический стек: 10 OAuth tokens, GraphQL batch enrichment, Postgres pipeline, Slidev для презентации. Модель: Claude Opus 4.6.

Gubin работает на платформе OpenClaw — это open-source фреймворк для автономных AI-агентов. Тот самый openclaw, звёзды которого мы анализировали. Определённая ирония в том, что продукт проверил сам себя — но данные объективны, SQL-запросы воспроизводимы, а исходные профили доступны через публичный API.

Источник

Возможности рынка
Логотип OpenClaw
OpenClaw Курс (OPENCLAW)
$0.0002871
$0.0002871$0.0002871
+6.92%
USD
График цены OpenClaw (OPENCLAW) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу crypto.news@mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.