← Back to overview ← К обзору

03 / LANGUAGE GAP 03 / ЯЗЫКОВОЙ РАЗРЫВ

The Language Gap in AI Adoption Языковой разрыв во внедрении ИИ

Evidence, Data, and Understanding of Causes Данные, доказательства и понимание причин

15×
More tokens — Kyrgyz vs. English Больше токенов — кыргызский vs. английский
Petrov et al., NeurIPS 2023; Turkic languages up to 15× penalty

Executive Summary

Краткое резюме

  • Countries where the dominant language is low-resource in AI systems show AI adoption rates roughly 20% lower than comparable countries, even after controlling for GDP and internet access (Microsoft AI Economy Institute, 147 countries, 2025).
  • Страны, где основной язык малоресурсен в системах ИИ, показывают показатели освоения ИИ на ~20% ниже сопоставимых стран, даже после контроля ВВП и интернет-доступа (Microsoft AI Economy Institute, 147 стран, 2025).
  • The cost gap is structural: identical content expressed in Kyrgyz, Arabic, or Hindi requires up to 15 times more tokens than English — meaning non-English speakers pay more per idea and receive a proportionally smaller context window (Petrov et al., NeurIPS 2023).
  • Разрыв в стоимости структурный: одинаковый контент на кыргызском, арабском или хинди требует до 15 раз больше токенов, чем на английском — означая, что говорящие на других языках платят больше за идею (Petrov et al., NeurIPS 2023).
  • Quality failures are measurable: AI performance in Kyrgyz is so poor that ChatGPT routinely substitutes Kazakh vocabulary into Kyrgyz responses, and Kazakh scored only 1.01/5.00 on clinical advice quality versus 3.32 for English (Kursiv.media, 2025; ScienceDirect, 2024).
  • Отказы в качестве измеримы: производительность ИИ на кыргызском настолько низкая, что ChatGPT подставляет казахскую лексику в кыргызские ответы; казахский получил всего 1.01/5.00 по качеству клинических советов vs. 3.32 для английского (Kursiv.media, 2025; ScienceDirect, 2024).
  • Software developers using AI in Russian or Kazakh gained 13.8% productivity versus 17.1% for English-language users — a 24% relative gap (Stanford, ~100,000 developers, 60 countries, 2025).
  • Разработчики, использующие ИИ на русском или казахском, получили 13.8% производительности против 17.1% для англоязычных пользователей — 24% относительный разрыв (Stanford, ~100 000 разработчиков, 60 стран, 2025).
  • The gap is widening, not closing: global adoption for low-resource language countries grew slower in both absolute and relative terms; the North–South adoption divide widened from 9.8 to 10.6 percentage points during 2025 (Microsoft, 2025).
  • Разрыв расширяется, а не сужается: рост в странах с малоресурсными языками медленнее; разрыв Север–Юг расширился с 9.8 до 10.6 п.п. в 2025 (Microsoft, 2025).
  • No major AI provider has implemented language-adjusted pricing despite years of documented evidence — this is a pricing policy choice, not a technical constraint.
  • Ни один крупный поставщик ИИ не внедрил языковую коррекцию цены несмотря на годы свидетельств — это выбор политики ценообразования, не техническое ограничение.

Part 1 — The Evidence

Часть 1 — Доказательства

1.1 Key Numbers at a Glance 1.1 Ключевые цифры

StatisticFigureSource ПоказательЦифраИсточник
Lower AI adoption in low-resource language countries~20% lowerMicrosoft AI Economy Institute, 147 countries, 2025 Более низкое внедрение ИИ в странах с малоресурсными языками~20% нижеMicrosoft AI Economy Institute, 147 стран, 2025
Max tokenization length difference for identical contentUp to 15×Petrov et al., NeurIPS 2023 Макс. разница длины токенизации для одинакового контентаДо 15×Petrov et al., NeurIPS 2023
Effective cost premium: Russian vs. English (GPT-4o)+69%Token Tax, arXiv 2025 Эффективная надбавка: русский vs. английский+69%Token Tax, arXiv 2025
Effective cost premium: Hindi vs. English (GPT-4o)+63%Token Tax, arXiv 2025 Эффективная надбавка: хинди vs. английский+63%Token Tax, arXiv 2025
AI clinical advice quality: Kazakh vs. English (5-point scale)1.01 vs. 3.32ScienceDirect, 50 patient profiles, 2024 Качество клинических советов: казахский vs. английский1.01 vs. 3.32ScienceDirect, 50 пациентов, 2024
Productivity gain: AI in English vs. Russian/Kazakh17.1% vs. 13.8%Stanford, ~100K developers, 60 countries, 2025 Рост производительности: ИИ на английском vs. русском/казахском17.1% vs. 13.8%Stanford, ~100K разработчиков, 60 стран, 2025
South Korea adoption rank jump after LLM quality improvement25th → 18thMicrosoft, 2025 Скачок рейтинга Южной Кореи после улучшения LLM25-й → 18-йMicrosoft, 2025
Global North vs. South adoption gap23% vs. 13%Microsoft, 1B+ devices, 2025 Глобальный разрыв Север vs. Юг23% vs. 13%Microsoft, 1B+ устройств, 2025

1.2 Global and Cross-Group Adoption Rates 1.2 Глобальные показатели освоения

The language adoption gap appears consistently across geographies, income levels, and use cases. It is not an artifact of poverty — it persists after economic controls.

Языковой разрыв освоения устойчиво проявляется географически, по доходу и сценариям использования. Это не артефакт бедности — сохраняется после контроля экономики.

Context / StudyHigh-resource lang.Low-resource lang.Source КонтекстВысокоресурсный языкМалоресурсный языкИсточник
Global (147 countries)Baseline~20% lower oddsMicrosoft, 2025 Глобально (147 стран)Базис~20% ниже шансыMicrosoft, 2025
South Korea (post-quality improvement)~30%+~26% (pre-improvement)Microsoft, 2025 Южная Корея (после улучшения)~30%+~26% (до улучшения)Microsoft, 2025
Sub-Saharan AfricaN/A<20% all countriesMicrosoft, 2025 Африка к югу от Сахары<20% все страныMicrosoft, 2025
Developer productivity: Kazakh vs. English17.1% gain13.8% gainStanford, 2025 Производительность разработчика: казахский vs. английский17.1%13.8%Stanford, 2025
ChatGPT clinical quality: English vs. Kazakh3.32 / 51.01 / 5ScienceDirect, 2024 Качество клинических советов ChatGPT3.32 / 51.01 / 5ScienceDirect, 2024

Important exception: the urban–rural and educated–uneducated splits within Kyrgyzstan. The language gap is not uniform within a country. In Kyrgyzstan, Russian-fluent urban professionals in Bishkek have access to a substantially higher tier of AI capability than Kyrgyz-dominant rural users. Russian-language AI performs at roughly the same level as other medium-resource languages — meaning bilingualism correlates with AI access, and bilingualism in Kyrgyzstan correlates closely with socioeconomic status. The language gap thus compounds and echoes the income gap within the same national borders.

Важное исключение: различия городско-сельские и образованные-необразованные в Кыргызстане. Языковой разрыв неоднороден внутри страны. В Кыргызстане русскоговорящие городские профессионалы в Бишкеке имеют доступ к значительно более высокому уровню возможностей ИИ, чем кыргызскоязычные сельские пользователи. Русскоязычный ИИ работает примерно на уровне других среднересурсных языков — двуязычие коррелирует с доступом ИИ, и в Кыргызстане двуязычие тесно коррелирует со статусом.

1.3 Attitudes, Trust, and Emotional Responses 1.3 Отношение, доверие и эмоциональные реакции

Trust in AI is not uniformly distributed. Underrepresented language communities report systematically different emotional relationships with AI tools — ones grounded in direct experience of failure, not abstract concern.

Доверие к ИИ распределено неравномерно. Недопредставленные языковые сообщества сообщают о систематически различных эмоциональных отношениях с инструментами ИИ — основанных на прямом опыте отказа, а не абстрактной озабоченности.

Attitude / BehaviorHigh-resource lang. usersLow-resource lang. usersSource УстановкаВысокоресурсные пользователиМалоресурсные пользователиИсточник
Global AI trust (% who view as trustworthy)Higher in advanced economies58% view as untrustworthyKPMG/Melbourne, 48,340 people, 47 countries, 2025 Глобальное доверие к ИИВыше в развитых экономиках58% считают недостойным доверияKPMG/Melbourne, 48 340 чел., 2025
Trust trend since pre-ChatGPT eraStable or improvingFalling in emerging economiesKPMG/Melbourne, 2025 Тренд доверияСтабилен или улучшаетсяПадает в развивающихся экономикахKPMG/Melbourne, 2025
Response to low-quality outputContinue in native languageSwitch to English/Russian for better resultsRest of World, 2023; UNDP 2025 Реакция на низкокачественный выводПродолжать на родном языкеПереключиться на английский/русскийRest of World, 2023; UNDP 2025
Perception of AI relevance to own cultureHighLow — AI seen as "foreign"UNDP Eurasia AI Language Gap, 2025 Восприятие релевантности ИИ к своей культуреВысокоеНизкое — ИИ как «иностранный»UNDP Eurasia, 2025
Willingness for high-stakes tasks (health, legal)HigherLower, after error experiencesNature, 2024; ScienceDirect, 2024 Готовность для высокорисковых задачВышеНиже после ошибокNature, 2024; ScienceDirect, 2024

1.4 The Feedback Loop 1.4 Петля обратной связи

The language AI gap is not static — it is actively self-reinforcing through a cycle that operates simultaneously at the individual, institutional, and technical levels.

Языковой разрыв ИИ не статичен — активно саморазвивается через цикл на индивидуальном, институциональном и техническом уровнях.

StageMechanismEvidence ЭтапМеханизмДоказательство
1. Poor quality outputAI produces errors, wrong-language responses, non-functional outputsKyrgyz/Kazakh substitution (Kursiv, 2025); clinical failure (ScienceDirect, 2024) 1. Низкокачественный результатИИ производит ошибки, неправильные языкиКыргыз/Казах подстановка (Kursiv, 2025)
2. User frustration and workaroundsUsers switch to English/Russian to get better results, or abandonUNDP specialists (2025); Rest of World (2023) 2. Разочарование пользователяПользователи переключаются на английский/русский или отказываютсяСпециалисты UNDP (2025)
3. Reduced native-language data generationLess user interaction = less feedback data for improvementStructural: Stanford HAI, 2025 3. Снижение данных на родном языкеМеньше взаимодействия = меньше обратной связиСтруктурный: Stanford HAI, 2025
4. Models remain underpoweredNext training cycle under-represents language, perpetuating gapToken Tax (arXiv 2025); KyrgyzNLP (arXiv 2024) 4. Модели остаются слабымиСледующий цикл обучения недопредставляет языкToken Tax (arXiv 2025)
5. Adoption gap widensLow-resource language users fall behind in skills, productivityMicrosoft 147-country study (2025) 5. Разрыв освоения расширяетсяПользователи отстают в навыках, производительностиMicrosoft, 2025
6. Language shift riskReliance on Russian/English may accelerate native language erosionSaadanbekov warning (Kursiv, 2025) 6. Риск смены языкаЗависимость от русского/английского может ускорить эрозиюSaadanbekov (Kursiv, 2025)

The Kyrgyzstan case illustrates an additional dimension: the post-Soviet linguistic hierarchy. Russian is not merely better-supported in AI — it is the language of education, science, and institutional power. AI systems that work well in Russian and poorly in Kyrgyz actively reinforce this hierarchy, giving Russian-fluent users compounding advantage in an already unequal environment.

Кыргызский случай иллюстрирует дополнительное измерение: постсоветская языковая иерархия. Русский язык не только лучше поддерживается в ИИ — он язык образования, науки, институциональной власти. Системы ИИ, работающие хорошо на русском и плохо на кыргызском, активно усиливают эту иерархию.

1.5 The Knowledge and Literacy Dimension 1.5 Измерение знаний и грамотности

The language gap operates differently from the gender confidence gap. For low-resource language users, the barrier is not primarily self-assessed competence — it is actual, measurable quality failure. Users are not underestimating their ability; the tools genuinely do not work.

Языковой разрыв работает иначе, чем гендерный разрыв уверенности. Для малоресурсных пользователей барьер — не самооценка компетентности, а реальный, измеримый отказ в качестве. Пользователи не недооценивают свои возможности; инструменты просто не работают.

Barrier typeDriverIntervention implication Тип барьераДвижущий факторПоследствия для вмешательства
Confidence gap (gender)Self-assessed competence below actual abilityMessaging, role models, community work Разрыв уверенности (гендер)Самооценка ниже способностейСообщения, модели, сообщество
Access gap (infrastructure)No internet, no devicesConnectivity investment works Разрыв доступаНет интернета, нет устройствИнвестиции в связь
Quality gap (language)AI genuinely performs worse in native languageOnly technical improvement or language switching works Разрыв качества (язык)ИИ действительно хуже работаетТолько техническое улучшение
Cost gap (token tax)Paying more for less effective servicePricing reform or dedicated tokenizers work Разрыв в стоимостиПлатя больше за меньший результатРеформа цены или токенизаторы

1.6 Structural Vulnerability: The Token Tax 1.6 Структурная уязвимость: налог на токены

The most quantitatively precise form of language-based AI inequality is tokenization: the process by which text is converted into numerical units for processing. Tokenizers are trained primarily on English text, creating a systematic premium for non-English languages.

Наиболее количественно точная форма языкового неравенства ИИ — токенизация: процесс преобразования текста в числовые единицы. Токенизаторы обучены на английском, создавая систематическую надбавку для других языков.

LanguageTokens per word (approx.)Premium over EnglishSource ЯзыкТокенов на словоНадбавкаИсточник
English1.16Token Tax, arXiv 2025 Английский1.16Token Tax, arXiv 2025
French1.52+31%Token Tax, arXiv 2025 Французский1.52+31%Token Tax, arXiv 2025
German1.52+31%Token Tax, arXiv 2025 Немецкий1.52+31%Token Tax, arXiv 2025
Russian1.96+69%Token Tax, arXiv 2025 Русский1.96+69%Token Tax, arXiv 2025
Arabic1.97+70%Token Tax, arXiv 2025 Арабский1.97+70%Token Tax, arXiv 2025
Hindi1.89+63%Token Tax, arXiv 2025 Хинди1.89+63%Token Tax, arXiv 2025
Turkic (Kazakh, Kyrgyz, Turkish)2–4×+100–300%SozKZ project, arXiv 2025 Тюркские (казахский, кыргызский, турецкий)2–4×+100–300%SozKZ проект, arXiv 2025
Most African languagesUp to 12×+1,100%Petrov et al., NeurIPS 2023 Большинство африканских языковДо 12×+1,100%Petrov et al., NeurIPS 2023

The tokenization premium has three distinct consequences beyond cost:

Надбавка за токенизацию имеет три отличных последствия сверх стоимости:

  • Smaller effective context window. GPT-4o's 128,000-token window accommodates ~110,000 English words but only ~68,000 Hindi words — a 38% reduction in usable capacity for the same subscription price.
  • Меньше эффективное окно контекста. 128,000-токен окно GPT-4o вмещает ~110,000 англ. слов, но только ~68,000 хинди слов — 38% сокращение.
  • Higher latency. Transformer attention scales quadratically with sequence length, so a 2x tokenization premium produces ~4x computational cost and doubled response time.
  • Более высокая задержка. Трансформерное внимание масштабируется квадратично, 2x надбавка создает ~4x вычислительных затрат.
  • Worse performance at inference. Models process longer token sequences less accurately for the same semantic content, compounding the quality gap created by training data imbalance.
  • Хуже производительность при выводе. Модели обрабатывают более длинные последовательности менее точно, усугубляя разрыв качества.

For Turkic languages specifically — including Kyrgyz — the agglutinative morphology compounds the problem. A single Kyrgyz word encodes what English expresses across multiple words. Standard byte-pair encoding tokenizers shatter these morphological structures, producing fragments that undermine model comprehension. The SozKZ project demonstrated that a dedicated Kazakh tokenizer achieves 2–3x better compression than standard multilingual tokenizers.

Для тюркских языков, включая кыргызский, агглютинативная морфология усугубляет проблему. Одно кыргызское слово кодирует то, что английский выражает несколькими словами. Стандартные токенизаторы разбивают эти структуры. SozKZ показал, что выделенный казахский токенизатор достигает 2–3x лучшего сжатия.

The token tax is a pricing injustice, not a technical inevitability. No major AI provider has implemented language-adjusted pricing despite years of evidence. A user in Kazakhstan processing 100 million Hindi-equivalent words monthly pays an estimated $473 versus $290 for English — an annual language surcharge of ~$2,196. Researcher Kathane (Substack, 2025) summarized: "These disparities are design choices, not natural laws. They can be changed." The fix requires no innovation — only per-word or per-character pricing.

Налог на токены — несправедливость в ценах, не техническая неизбежность. Ни один крупный поставщик не внедрил языковую коррекцию цены. Пользователь в Казахстане обрабатывает 100 млн слов ежемесячно платит ~$473 vs. $290 за английский — ежегодная надбавка ~$2,196. «Эти различия — выбор дизайна, не естественные законы,» пишет Kathane.

1.7 Downstream Consequences: Productivity and Opportunity 1.7 Нисходящие последствия: производительность и возможности

The language gap is already translating into measurable divergence in economic outcomes, and the trajectory is widening rather than narrowing.

Языковой разрыв уже переводится в измеримое расхождение экономических результатов, и траектория расширяется.

OutcomeHigh-resource lang.Low-resource lang.Source РезультатВысокоресурсныйМалоресурсныйИсточник
Productivity gain from AI (software development)+17.1%+13.8%Stanford, ~100K developers, 2025 Рост производительности от ИИ+17.1%+13.8%Stanford, ~100K разработчиков, 2025
Clinical AI advice quality (5-point scale)3.32 (English)1.01 (Kazakh)ScienceDirect, 50 synthetic patients, 2024 Качество клинических советов ИИ3.32 (английский)1.01 (казахский)ScienceDirect, 2024
Business email improvement: actionabilityBaseline−0.59 SD (Arabic)PMC cross-lingual study, 480 participants, 2025 Улучшение деловой почтыБазис−0.59 SD (арабский)PMC, 480 участников, 2025
Global AI adoption: North vs. South~23%~13%Microsoft, 1B+ devices, 2025 Глобальное освоение ИИ: Север vs. Юг~23%~13%Microsoft, 1B+ устройств, 2025
AI adoption gap direction (2025)Stable or growingWidening: gap grew 9.8 to 10.6 ppMicrosoft, 2025 Направление разрыва освоения ИИСтабильный или растущийРасширяющийся: 9.8 до 10.6 п.п.Microsoft, 2025

The South Korea natural experiment is the most compelling evidence. When frontier LLMs improved Hangul capabilities, adoption surged and the country's global rank improved by seven positions within months. Language quality drives adoption. No other variable changed.

Южная Корея — самое убедительное доказательство. Когда передовые LLM улучшили Hangul, освоение выросло и глобальный рейтинг улучшился на семь позиций за месяцы. Качество языка движет освоением.

Part 2 — Understanding the Causes

Часть 2 — Понимание причин

The language AI gap does not have a single cause. Four interlocking categories of factor — structural, institutional, psychological, and historical — each contribute.

Языковой разрыв ИИ не имеет одной причины. Четыре взаимосвязанные категории — структурная, институциональная, психологическая и историческая.

2.1 Structural and Material Causes 2.1 Структурные и материальные причины

Tokenization architecture — Standard byte-pair encoding tokenizers are trained on English-dominated corpora, creating systematic compression disadvantages for other languages — especially morphologically complex ones like Kyrgyz, Kazakh, and Turkish. The SozKZ project demonstrated a language-specific tokenizer achieves 2–3x better efficiency for Kazakh. Parity-aware BPE modifies the encoding algorithm to maximize compression of the worst-compressed language at each merge step. The technical solution exists; deployment lags.

Архитектура токенизации — стандартные токенизаторы обучены на английских корпусах, создавая систематические недостатки сжатия. SozKZ показал, что специфический для языка токенизатор достигает 2–3x лучшей эффективности для казахского. Техническое решение существует; развертывание отстает.

Pricing structure — API pricing is per-token, not per-word or per-character. This creates a direct financial premium for non-English users proportional to tokenization inefficiency. The premium reaches 15x for the most disadvantaged languages, and ranges from 31% to 70% for widely spoken languages like French, Russian, and Arabic. No major AI company has implemented language-adjusted pricing. This is a pricing policy choice, not a technical constraint.

Структура цен — API цена за токен, не за слово или символ. Это создает прямую финансовую надбавку для неанглийских пользователей. Ни одна крупная компания ИИ не внедрила языковую коррекцию цены. Это выбор политики ценообразования, не ограничение.

Infrastructure and connectivity — Only ~38% of Kyrgyzstan's population has internet access, compared to ~79% in Kazakhstan. Lower connectivity reduces both AI adoption and the generation of native-language digital content that could improve AI training data. This creates a compounding disadvantage: fewer users means less feedback data, which means slower quality improvement, which reduces incentive to adopt.

Инфраструктура и связь — только ~38% населения Кыргызстана имеет интернет, vs. ~79% в Казахстане. Низкая связность снижает как освоение ИИ, так и генерацию контента на родном языке. Это создает кумулятивный эффект: меньше пользователей — меньше обратной связи — медленнее улучшение качества.

2.2 Institutional and Systemic Causes 2.2 Институциональные и системные причины

Workforce composition — AI development is concentrated in English-speaking countries and companies. No major AI lab is headquartered in a low-resource language country. When developers build and test in English, edge cases in other languages go unnoticed until users in those languages report them — a systematic quality control gap.

Состав рабочей силы — развитие ИИ сосредоточено в англоязычных странах и компаниях. Ни одна крупная лаборатория ИИ не находится в стране малоресурсного языка. Когда разработчики тестируют на английском, граничные случаи в других языках остаются незамеченными.

Training and recognition feedback — User feedback loops that improve model quality operate predominantly in English. RLHF (reinforcement learning from human feedback) is disproportionately collected in English, meaning quality improvements diffuse more slowly to other languages. The Kazakh case illustrates institutional response: the government built KazLLM, but it attracted only 600,000 users versus 2.6 million for ChatGPT. State-sponsored language AI faces a competitiveness trap.

Обучение и обратная связь — циклы обратной связи работают преимущественно на английском. RLHF собирается непропорционально на английском. Правительство Казахстана построило KazLLM, но оно привлекло только 600 000 пользователей vs. 2.6 млн для ChatGPT.

Post-Soviet institutional inheritance — Soviet-era policies established Russian as the language of science, governance, and formal education across Central Asia. This continues to shape which language Kyrgyz AI researchers write papers in, what data universities digitize, and what language government services are documented in. Kyrgyzstan's AI community, though growing, still relies primarily on pre-built English and Russian models rather than building Kyrgyz-language capability from scratch. This is a rational response to the incentive structure.

Постсоветское институциональное наследие — советские политики установили русский язык как язык науки, управления и образования в Центральной Азии. Это продолжает формировать, на каком языке кыргызские исследователи пишут статьи. Кыргызское сообщество ИИ по-прежнему полагается в основном на предварительно построенные английские и русские модели, а не на создание кыргызских возможностей с нуля.

2.3 Psychological Causes 2.3 Психологические причины

Quality-driven distrust — Unlike the gender AI gap, where distrust often precedes experience, language-based AI distrust is primarily experience-driven. Users who have encountered Kazakh-vocabulary substitutions in Kyrgyz responses, or received clinically useless nutritional advice, have accurate information for their distrust. This matters for intervention design: messaging campaigns cannot solve a problem caused by genuine quality failure. The psychological mechanism here is rational Bayesian updating, not confidence deficit.

Недоверие, основанное на качестве — в отличие от гендерного разрыва ИИ, языковое недоверие в основном основано на опыте. Пользователи, столкнувшиеся с подстановками казахской лексики в кыргызские ответы, имеют точную информацию для своего недоверия. Сообщения не могут решить проблему, вызванную реальным отказом в качестве.

Identity and belonging signals — AI interfaces, default languages, and cultural references signal who the technology is for. When AI responds to Kyrgyz queries in Kazakh, or frames answers in American cultural contexts, it signals "this is not for you" — even beyond the quality failure itself. Evidence that environmental signaling affects adoption is strong in the gender gap literature; direct evidence for the language gap remains limited but the mechanism is plausible.

Сигналы идентичности и принадлежности — интерфейсы ИИ, языки по умолчанию и культурные ссылки сигнализируют, для кого технология. Когда ИИ отвечает на кыргызские запросы на казахском или структурирует ответы в американских культурных контекстах, это сигнализирует «это не для вас».

Language switching costs and identity loss — When users switch from Kyrgyz to Russian or English to access better AI quality, they incur cognitive costs (working in a non-native language) and identity costs (using the language of colonial administration or global capital to access their own knowledge). AI researcher Thien Nguyen (Nature, 2024) described this as "causing a loss of diversity of thought," arguing that English-mediated AI creates homogenization pressure. Quantitative evidence for this mechanism in adoption decisions is sparse.

Затраты на смену языка и потеря идентичности — когда пользователи переходят с кыргызского на русский или английский для доступа к лучшему ИИ, они несут когнитивные затраты и затраты идентичности. Thien Nguyen описал это как «потерю разнообразия мысли», утверждая, что англоязычный ИИ создает давление гомогенизации.

2.4 Cultural and Historical Causes 2.4 Культурные и исторические причины

Soviet-era linguistic hierarchy — The Soviet educational system made Russian the language of advancement and Kyrgyz the language of home and tradition. This established a durable association between Russian-medium activity and professional/technical competence — an association that AI tools now reinforce. Unlike the gender-in-computing historical analogy (where women's representation fell after computers were marketed as "boys' toys"), the Kyrgyz case involves an externally imposed exclusion rather than a marketing-driven one.

Советская языковая иерархия — советская образовательная система делала русский язык языком продвижения, а кыргызский языком дома и традиции. Это установило стойкую ассоциацию между русским и профессиональной компетентностью, ассоциацию, которую инструменты ИИ теперь усиливают.

The 1991 rupture and technological discontinuity — The post-Soviet transition created a sharp technological discontinuity. Soviet-era computing infrastructure (Cyrillic-heavy, Russian-language, isolated from the internet) did not transfer to the internet era. Older cohorts with Soviet technical training found their experience of limited value. This illustrates how historical exclusion can create a gap *after* a rupture event rather than through chronic neglect — a dynamic distinct from most AI gap narratives.

Разрыв 1991 года и технологический разрыв — постсоветский переход создал острый технологический разрыв. Советская вычислительная инфраструктура не перешла в эру интернета. Пожилые когорты с советским техническим обучением нашли свой опыт ограниченной ценности.

Absence of digital cultural presence — Kyrgyz Wikipedia contains ~80,000 articles — 1.2% of English Wikipedia's size. Kyrgyz literary, scientific, and journalistic content has not been digitized at scale. This absence of digital cultural presence precedes and explains AI's failure in the language: you cannot train on content that was never written down online. Cultural content scarcity is not purely historical — it continues to accumulate. Every year that Kyrgyz speakers communicate in Russian online rather than Kyrgyz widens the training data gap for the next generation of models.

Отсутствие цифрового культурного присутствия — кыргызская Википедия содержит ~80 000 статей — 1.2% от английской. Кыргызский литературный, научный и журналистский контент не был оцифрован в масштабе. Это отсутствие объясняет отказ ИИ в языке: вы не можете обучаться на контенте, который никогда не был написан в сети. Каждый год кыргызские говорящие общаются на русском в сети вместо кыргызского расширяет разрыв в данных обучения.

Part 3 — Synthesis and Interventions

Часть 3 — Синтез и интервенции

3.1 The Causes Are Interlocking 3.1 Причины взаимосвязаны

The language AI gap cannot be fixed by any single intervention because its causes form a chain: the historical absence of digital Kyrgyz content → insufficient training data → poorly calibrated tokenizers → higher token cost and worse outputs → user experience of failure → distrust and language switching → less Kyrgyz-language feedback data generated → models remain underpowered → next training cycle reproduces the gap. Each link feeds the next.

Языковой разрыв ИИ не может быть исправлен одним вмешательством, потому что причины образуют цепь: исторические отсутствие цифрового контента → недостаточные данные обучения → плохо калиброванные токенизаторы → более высокие затраты и худшие результаты → отказ пользователя → недоверие и переключение языка → меньше кыргызских данных → модели остаются слабыми → следующий цикл воспроизводит разрыв.

The institutional layer sits across this chain. No actor within the current AI industry has a strong financial incentive to break it: Kyrgyz speakers are a small market; dedicated tokenizers cost money; language-adjusted pricing reduces revenue. The incentive structure points toward the gap persisting without deliberate policy intervention or mission-driven investment.

Институциональный слой находится поперек этой цепи. Ни один участник текущей индустрии ИИ не имеет сильного финансового стимула разорвать цепь: кыргызские говорящие — малый рынок; выделенные токенизаторы стоят деньги; языковая коррекция цены снижает доход.

The psychological layer compounds the structural and institutional gaps. Users who have experienced quality failure develop distrust that may persist even after quality improves. The South Korea case suggests quality improvement can rapidly shift adoption — but overcoming accumulated distrust may take longer than the initial technical fix.

Психологический слой усугубляет структурные и институциональные разрывы. Пользователи, которые испытали отказ в качестве, развивают недоверие, которое может сохраняться даже после улучшения. Южная Корея предполагает, что улучшение качества может быстро сдвинуть освоение.

3.2 What the Evidence Suggests About Intervention 3.2 Что свидетельства предполагают об интервенции

Language-adjusted API pricing (per word or per character) would eliminate the token tax immediately, without any technical work. This is the highest-leverage, lowest-cost intervention available and has not been implemented by any major provider.

Языковая коррекция API цены (за слово или символ) устранила бы налог на токены немедленно, без технической работы. Это самое высокое-рычаг, низкозатратное вмешательство, доступное и не внедренное ни одним крупным поставщиком.

Dedicated tokenizers for agglutinative and morphologically complex languages achieve 2–3x efficiency improvements. This reduces both cost and quality penalties at inference time.

Выделенные токенизаторы для агглютинативных и морфологически сложных языков достигают 2–3x улучшения эффективности.

Quality investment pays adoption returns. The South Korea case shows quality improvement drives adoption rapidly (7-rank global jump within months). Investing in model quality for specific languages produces measurable adoption returns, making it a viable business case even without policy mandates.

Инвестиции в качество окупаются освоением. Южная Корея показывает, что улучшение качества движет освоением быстро. Инвестирование в качество модели для конкретных языков дает измеримые результаты освоения.

Community-driven corpus building is the most sustainable long-term approach — exemplified by Masakhane (Africa), TilCorpusu (Kyrgyz, 100M-word corpus released 2023), and Mozilla Common Voice. These efforts require consistent funding and cannot be treated as one-time projects.

Построение корпуса под руководством сообщества — самый устойчивый долгосрочный подход — Masakhane (Африка), TilCorpusu (кыргызский, 100M-словный корпус выпущен 2023), Mozilla Common Voice.

Sovereign language models (KazLLM, KyrgyzBERT) serve cultural fidelity but face a competitiveness trap on general tasks. They are most likely to succeed as specialized tools for culturally specific domains — government services, healthcare, education — rather than general-purpose competitors to GPT-4.

Суверенные языковые модели (KazLLM, KyrgyzBERT) служат культурной верности, но сталкиваются с ловушкой конкурентоспособности. Они, вероятно, добьются успеха как специализированные инструменты для культурно-специфических областей.

3.3 The Open Question 3.3 Открытый вопрос

The most important unresolved question is whether the language gap will close or widen as AI becomes more deeply embedded in economic life. In the convergence scenario: frontier models continue to improve multilingual performance; community-driven data efforts accumulate critical mass; the economic case for serving large language communities (Hindi, Arabic, Swahili) eventually pulls investment. In the divergence scenario: AI becomes embedded in high-stakes systems while still performing poorly in low-resource languages; path dependency locks in quality gaps; productivity and income divergence documented in 2025 compounds into generational inequality. The current evidence is more consistent with the divergence scenario. The Microsoft data show the gap widening, not narrowing. No major AI company has made structural changes to tokenizer fairness or pricing.

Наиболее важный нерешенный вопрос — будет ли языковой разрыв закрываться или расширяться по мере более глубокого встраивания ИИ. В сценарии конвергенции: передовые модели продолжают улучшать многоязычную производительность. В сценарии дивергенции: ИИ встраивается в высокорисковые системы при плохой производительности. Текущие данные более согласуются с дивергенцией. Microsoft показывает расширение разрыва.

Selected Sources

Избранные источники

Authors / SourceYearTitle / Publication АвторыГодНазвание
Petrov et al.2023Do All Languages Cost the Same? Tokenization in the Era of Commercial Language Models. EMNLP 2023 / NeurIPS 2023 Petrov et al.2023Do All Languages Cost the Same? EMNLP 2023
Token Tax (arXiv 2509.05486)2025The Token Tax: Systematic Bias in Multilingual Tokenization. arXiv Token Tax2025The Token Tax: Systematic Bias. arXiv
Microsoft AI Economy Institute2025Global AI Adoption in 2025. 147 countries, 1B+ devices Microsoft AI2025Global AI Adoption in 2025. 147 стран
SozKZ project2025Training Efficient Small Language Models for Kazakh from Scratch. arXiv 2603.20854 SozKZ project2025Training Efficient Small Language Models. arXiv
Stanford HAI / Koyejo2025Closing the Digital Divide in AI. Policy white paper Stanford HAI2025Closing the Digital Divide in AI. White paper
ScienceDirect2024Evaluating ChatGPT's Multilingual Performance in Clinical Nutrition Advice Using Synthetic Medical Text: Insights from Central Asia. Journal of Nutrition ScienceDirect2024Evaluating ChatGPT's Multilingual Performance. Journal of Nutrition
Kursiv.media2025ChatGPT's Linguistic Blunder: Kyrgyz Prompts, Kazakh Replies. June 2025 Kursiv.media2025ChatGPT's Linguistic Blunder. June 2025
KPMG / Univ. Melbourne2025Trust, Attitudes and Use of Artificial Intelligence: A Global Study. N=48,340, 47 countries KPMG / Melbourne2025Trust, Attitudes and Use of AI. N=48 340
Sharma et al. (Johns Hopkins)2025Faux Polyglot: A Study on Information Disparity in Multilingual LLMs. NAACL 2025 Sharma et al.2025Faux Polyglot: Information Disparity. NAACL
UNDP Eurasia2025No Language Left Behind: How to Bridge the Rapidly Evolving AI Language Gap UNDP Eurasia2025No Language Left Behind: Bridge AI Gap
Parity-Aware BPE2025Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization. arXiv 2508.04796 Parity-Aware BPE2025Parity-Aware Byte-Pair Encoding. arXiv