The Language Gap in AI Adoption

Executive Summary

Краткое резюме

Countries where the dominant language is low-resource in AI systems show AI adoption rates roughly 20% lower than comparable countries, even after controlling for GDP and internet access (Microsoft AI Economy Institute, 147 countries, 2025).
Страны, где основной язык малоресурсен в системах ИИ, показывают показатели освоения ИИ на ~20% ниже сопоставимых стран, даже после контроля ВВП и интернет-доступа (Microsoft AI Economy Institute, 147 стран, 2025).
The cost gap is structural: identical content expressed in Kyrgyz, Arabic, or Hindi requires up to 15 times more tokens than English — meaning non-English speakers pay more per idea and receive a proportionally smaller context window (Petrov et al., NeurIPS 2023).
Разрыв в стоимости структурный: одинаковый контент на кыргызском, арабском или хинди требует до 15 раз больше токенов, чем на английском — означая, что говорящие на других языках платят больше за идею (Petrov et al., NeurIPS 2023).
Quality failures are measurable: AI performance in Kyrgyz is so poor that ChatGPT routinely substitutes Kazakh vocabulary into Kyrgyz responses, and Kazakh scored only 1.01/5.00 on clinical advice quality versus 3.32 for English (Kursiv.media, 2025; ScienceDirect, 2024).
Отказы в качестве измеримы: производительность ИИ на кыргызском настолько низкая, что ChatGPT подставляет казахскую лексику в кыргызские ответы; казахский получил всего 1.01/5.00 по качеству клинических советов vs. 3.32 для английского (Kursiv.media, 2025; ScienceDirect, 2024).
Software developers using AI in Russian or Kazakh gained 13.8% productivity versus 17.1% for English-language users — a 24% relative gap (Stanford, ~100,000 developers, 60 countries, 2025).
Разработчики, использующие ИИ на русском или казахском, получили 13.8% производительности против 17.1% для англоязычных пользователей — 24% относительный разрыв (Stanford, ~100 000 разработчиков, 60 стран, 2025).
The gap is widening, not closing: global adoption for low-resource language countries grew slower in both absolute and relative terms; the North–South adoption divide widened from 9.8 to 10.6 percentage points during 2025 (Microsoft, 2025).
Разрыв расширяется, а не сужается: рост в странах с малоресурсными языками медленнее; разрыв Север–Юг расширился с 9.8 до 10.6 п.п. в 2025 (Microsoft, 2025).
No major AI provider has implemented language-adjusted pricing despite years of documented evidence — this is a pricing policy choice, not a technical constraint.
Ни один крупный поставщик ИИ не внедрил языковую коррекцию цены несмотря на годы свидетельств — это выбор политики ценообразования, не техническое ограничение.

Part 1 — The Evidence

Часть 1 — Доказательства

1.1 Key Numbers at a Glance 1.1 Ключевые цифры

Statistic	Figure	Source	Показатель	Цифра	Источник
Lower AI adoption in low-resource language countries	~20% lower	Microsoft AI Economy Institute, 147 countries, 2025	Более низкое внедрение ИИ в странах с малоресурсными языками	~20% ниже	Microsoft AI Economy Institute, 147 стран, 2025
Max tokenization length difference for identical content	Up to 15×	Petrov et al., NeurIPS 2023	Макс. разница длины токенизации для одинакового контента	До 15×	Petrov et al., NeurIPS 2023
Effective cost premium: Russian vs. English (GPT-4o)	+69%	Token Tax, arXiv 2025	Эффективная надбавка: русский vs. английский	+69%	Token Tax, arXiv 2025
Effective cost premium: Hindi vs. English (GPT-4o)	+63%	Token Tax, arXiv 2025	Эффективная надбавка: хинди vs. английский	+63%	Token Tax, arXiv 2025
AI clinical advice quality: Kazakh vs. English (5-point scale)	1.01 vs. 3.32	ScienceDirect, 50 patient profiles, 2024	Качество клинических советов: казахский vs. английский	1.01 vs. 3.32	ScienceDirect, 50 пациентов, 2024
Productivity gain: AI in English vs. Russian/Kazakh	17.1% vs. 13.8%	Stanford, ~100K developers, 60 countries, 2025	Рост производительности: ИИ на английском vs. русском/казахском	17.1% vs. 13.8%	Stanford, ~100K разработчиков, 60 стран, 2025
South Korea adoption rank jump after LLM quality improvement	25th → 18th	Microsoft, 2025	Скачок рейтинга Южной Кореи после улучшения LLM	25-й → 18-й	Microsoft, 2025
Global North vs. South adoption gap	23% vs. 13%	Microsoft, 1B+ devices, 2025	Глобальный разрыв Север vs. Юг	23% vs. 13%	Microsoft, 1B+ устройств, 2025

1.2 Global and Cross-Group Adoption Rates 1.2 Глобальные показатели освоения

The language adoption gap appears consistently across geographies, income levels, and use cases. It is not an artifact of poverty — it persists after economic controls.

Языковой разрыв освоения устойчиво проявляется географически, по доходу и сценариям использования. Это не артефакт бедности — сохраняется после контроля экономики.

Context / Study	High-resource lang.	Low-resource lang.	Source	Контекст	Высокоресурсный язык	Малоресурсный язык	Источник
Global (147 countries)	Baseline	~20% lower odds	Microsoft, 2025	Глобально (147 стран)	Базис	~20% ниже шансы	Microsoft, 2025
South Korea (post-quality improvement)	~30%+	~26% (pre-improvement)	Microsoft, 2025	Южная Корея (после улучшения)	~30%+	~26% (до улучшения)	Microsoft, 2025
Sub-Saharan Africa	N/A	<20% all countries	Microsoft, 2025	Африка к югу от Сахары	—	<20% все страны	Microsoft, 2025
Developer productivity: Kazakh vs. English	17.1% gain	13.8% gain	Stanford, 2025	Производительность разработчика: казахский vs. английский	17.1%	13.8%	Stanford, 2025
ChatGPT clinical quality: English vs. Kazakh	3.32 / 5	1.01 / 5	ScienceDirect, 2024	Качество клинических советов ChatGPT	3.32 / 5	1.01 / 5	ScienceDirect, 2024

Important exception: the urban–rural and educated–uneducated splits within Kyrgyzstan. The language gap is not uniform within a country. In Kyrgyzstan, Russian-fluent urban professionals in Bishkek have access to a substantially higher tier of AI capability than Kyrgyz-dominant rural users. Russian-language AI performs at roughly the same level as other medium-resource languages — meaning bilingualism correlates with AI access, and bilingualism in Kyrgyzstan correlates closely with socioeconomic status. The language gap thus compounds and echoes the income gap within the same national borders.

Важное исключение: различия городско-сельские и образованные-необразованные в Кыргызстане. Языковой разрыв неоднороден внутри страны. В Кыргызстане русскоговорящие городские профессионалы в Бишкеке имеют доступ к значительно более высокому уровню возможностей ИИ, чем кыргызскоязычные сельские пользователи. Русскоязычный ИИ работает примерно на уровне других среднересурсных языков — двуязычие коррелирует с доступом ИИ, и в Кыргызстане двуязычие тесно коррелирует со статусом.

1.3 Attitudes, Trust, and Emotional Responses 1.3 Отношение, доверие и эмоциональные реакции

Trust in AI is not uniformly distributed. Underrepresented language communities report systematically different emotional relationships with AI tools — ones grounded in direct experience of failure, not abstract concern.

Доверие к ИИ распределено неравномерно. Недопредставленные языковые сообщества сообщают о систематически различных эмоциональных отношениях с инструментами ИИ — основанных на прямом опыте отказа, а не абстрактной озабоченности.

Attitude / Behavior	High-resource lang. users	Low-resource lang. users	Source	Установка	Высокоресурсные пользователи	Малоресурсные пользователи	Источник
Global AI trust (% who view as trustworthy)	Higher in advanced economies	58% view as untrustworthy	KPMG/Melbourne, 48,340 people, 47 countries, 2025	Глобальное доверие к ИИ	Выше в развитых экономиках	58% считают недостойным доверия	KPMG/Melbourne, 48 340 чел., 2025
Trust trend since pre-ChatGPT era	Stable or improving	Falling in emerging economies	KPMG/Melbourne, 2025	Тренд доверия	Стабилен или улучшается	Падает в развивающихся экономиках	KPMG/Melbourne, 2025
Response to low-quality output	Continue in native language	Switch to English/Russian for better results	Rest of World, 2023; UNDP 2025	Реакция на низкокачественный вывод	Продолжать на родном языке	Переключиться на английский/русский	Rest of World, 2023; UNDP 2025
Perception of AI relevance to own culture	High	Low — AI seen as "foreign"	UNDP Eurasia AI Language Gap, 2025	Восприятие релевантности ИИ к своей культуре	Высокое	Низкое — ИИ как «иностранный»	UNDP Eurasia, 2025
Willingness for high-stakes tasks (health, legal)	Higher	Lower, after error experiences	Nature, 2024; ScienceDirect, 2024	Готовность для высокорисковых задач	Выше	Ниже после ошибок	Nature, 2024; ScienceDirect, 2024

1.4 The Feedback Loop 1.4 Петля обратной связи

The language AI gap is not static — it is actively self-reinforcing through a cycle that operates simultaneously at the individual, institutional, and technical levels.

Языковой разрыв ИИ не статичен — активно саморазвивается через цикл на индивидуальном, институциональном и техническом уровнях.

Stage	Mechanism	Evidence	Этап	Механизм	Доказательство
1. Poor quality output	AI produces errors, wrong-language responses, non-functional outputs	Kyrgyz/Kazakh substitution (Kursiv, 2025); clinical failure (ScienceDirect, 2024)	1. Низкокачественный результат	ИИ производит ошибки, неправильные языки	Кыргыз/Казах подстановка (Kursiv, 2025)
2. User frustration and workarounds	Users switch to English/Russian to get better results, or abandon	UNDP specialists (2025); Rest of World (2023)	2. Разочарование пользователя	Пользователи переключаются на английский/русский или отказываются	Специалисты UNDP (2025)
3. Reduced native-language data generation	Less user interaction = less feedback data for improvement	Structural: Stanford HAI, 2025	3. Снижение данных на родном языке	Меньше взаимодействия = меньше обратной связи	Структурный: Stanford HAI, 2025
4. Models remain underpowered	Next training cycle under-represents language, perpetuating gap	Token Tax (arXiv 2025); KyrgyzNLP (arXiv 2024)	4. Модели остаются слабыми	Следующий цикл обучения недопредставляет язык	Token Tax (arXiv 2025)
5. Adoption gap widens	Low-resource language users fall behind in skills, productivity	Microsoft 147-country study (2025)	5. Разрыв освоения расширяется	Пользователи отстают в навыках, производительности	Microsoft, 2025
6. Language shift risk	Reliance on Russian/English may accelerate native language erosion	Saadanbekov warning (Kursiv, 2025)	6. Риск смены языка	Зависимость от русского/английского может ускорить эрозию	Saadanbekov (Kursiv, 2025)

The Kyrgyzstan case illustrates an additional dimension: the post-Soviet linguistic hierarchy. Russian is not merely better-supported in AI — it is the language of education, science, and institutional power. AI systems that work well in Russian and poorly in Kyrgyz actively reinforce this hierarchy, giving Russian-fluent users compounding advantage in an already unequal environment.

Кыргызский случай иллюстрирует дополнительное измерение: постсоветская языковая иерархия. Русский язык не только лучше поддерживается в ИИ — он язык образования, науки, институциональной власти. Системы ИИ, работающие хорошо на русском и плохо на кыргызском, активно усиливают эту иерархию.

1.5 The Knowledge and Literacy Dimension 1.5 Измерение знаний и грамотности

The language gap operates differently from the gender confidence gap. For low-resource language users, the barrier is not primarily self-assessed competence — it is actual, measurable quality failure. Users are not underestimating their ability; the tools genuinely do not work.

Языковой разрыв работает иначе, чем гендерный разрыв уверенности. Для малоресурсных пользователей барьер — не самооценка компетентности, а реальный, измеримый отказ в качестве. Пользователи не недооценивают свои возможности; инструменты просто не работают.

Barrier type	Driver	Intervention implication	Тип барьера	Движущий фактор	Последствия для вмешательства
Confidence gap (gender)	Self-assessed competence below actual ability	Messaging, role models, community work	Разрыв уверенности (гендер)	Самооценка ниже способностей	Сообщения, модели, сообщество
Access gap (infrastructure)	No internet, no devices	Connectivity investment works	Разрыв доступа	Нет интернета, нет устройств	Инвестиции в связь
Quality gap (language)	AI genuinely performs worse in native language	Only technical improvement or language switching works	Разрыв качества (язык)	ИИ действительно хуже работает	Только техническое улучшение
Cost gap (token tax)	Paying more for less effective service	Pricing reform or dedicated tokenizers work	Разрыв в стоимости	Платя больше за меньший результат	Реформа цены или токенизаторы

1.6 Structural Vulnerability: The Token Tax 1.6 Структурная уязвимость: налог на токены

The most quantitatively precise form of language-based AI inequality is tokenization: the process by which text is converted into numerical units for processing. Tokenizers are trained primarily on English text, creating a systematic premium for non-English languages.

Наиболее количественно точная форма языкового неравенства ИИ — токенизация: процесс преобразования текста в числовые единицы. Токенизаторы обучены на английском, создавая систематическую надбавку для других языков.

Language	Tokens per word (approx.)	Premium over English	Source	Язык	Токенов на слово	Надбавка	Источник
English	1.16	—	Token Tax, arXiv 2025	Английский	1.16	—	Token Tax, arXiv 2025
French	1.52	+31%	Token Tax, arXiv 2025	Французский	1.52	+31%	Token Tax, arXiv 2025
German	1.52	+31%	Token Tax, arXiv 2025	Немецкий	1.52	+31%	Token Tax, arXiv 2025
Russian	1.96	+69%	Token Tax, arXiv 2025	Русский	1.96	+69%	Token Tax, arXiv 2025
Arabic	1.97	+70%	Token Tax, arXiv 2025	Арабский	1.97	+70%	Token Tax, arXiv 2025
Hindi	1.89	+63%	Token Tax, arXiv 2025	Хинди	1.89	+63%	Token Tax, arXiv 2025
Turkic (Kazakh, Kyrgyz, Turkish)	2–4×	+100–300%	SozKZ project, arXiv 2025	Тюркские (казахский, кыргызский, турецкий)	2–4×	+100–300%	SozKZ проект, arXiv 2025
Most African languages	Up to 12×	+1,100%	Petrov et al., NeurIPS 2023	Большинство африканских языков	До 12×	+1,100%	Petrov et al., NeurIPS 2023

The tokenization premium has three distinct consequences beyond cost:

Надбавка за токенизацию имеет три отличных последствия сверх стоимости:

Smaller effective context window. GPT-4o's 128,000-token window accommodates ~110,000 English words but only ~68,000 Hindi words — a 38% reduction in usable capacity for the same subscription price.
Меньше эффективное окно контекста. 128,000-токен окно GPT-4o вмещает ~110,000 англ. слов, но только ~68,000 хинди слов — 38% сокращение.
Higher latency. Transformer attention scales quadratically with sequence length, so a 2x tokenization premium produces ~4x computational cost and doubled response time.
Более высокая задержка. Трансформерное внимание масштабируется квадратично, 2x надбавка создает ~4x вычислительных затрат.
Worse performance at inference. Models process longer token sequences less accurately for the same semantic content, compounding the quality gap created by training data imbalance.
Хуже производительность при выводе. Модели обрабатывают более длинные последовательности менее точно, усугубляя разрыв качества.

For Turkic languages specifically — including Kyrgyz — the agglutinative morphology compounds the problem. A single Kyrgyz word encodes what English expresses across multiple words. Standard byte-pair encoding tokenizers shatter these morphological structures, producing fragments that undermine model comprehension. The SozKZ project demonstrated that a dedicated Kazakh tokenizer achieves 2–3x better compression than standard multilingual tokenizers.

Для тюркских языков, включая кыргызский, агглютинативная морфология усугубляет проблему. Одно кыргызское слово кодирует то, что английский выражает несколькими словами. Стандартные токенизаторы разбивают эти структуры. SozKZ показал, что выделенный казахский токенизатор достигает 2–3x лучшего сжатия.

The token tax is a pricing injustice, not a technical inevitability. No major AI provider has implemented language-adjusted pricing despite years of evidence. A user in Kazakhstan processing 100 million Hindi-equivalent words monthly pays an estimated $473 versus $290 for English — an annual language surcharge of ~$2,196. Researcher Kathane (Substack, 2025) summarized: "These disparities are design choices, not natural laws. They can be changed." The fix requires no innovation — only per-word or per-character pricing.

Налог на токены — несправедливость в ценах, не техническая неизбежность. Ни один крупный поставщик не внедрил языковую коррекцию цены. Пользователь в Казахстане обрабатывает 100 млн слов ежемесячно платит ~$473 vs. $290 за английский — ежегодная надбавка ~$2,196. «Эти различия — выбор дизайна, не естественные законы,» пишет Kathane.

1.7 Downstream Consequences: Productivity and Opportunity 1.7 Нисходящие последствия: производительность и возможности

The language gap is already translating into measurable divergence in economic outcomes, and the trajectory is widening rather than narrowing.

Языковой разрыв уже переводится в измеримое расхождение экономических результатов, и траектория расширяется.

Outcome	High-resource lang.	Low-resource lang.	Source	Результат	Высокоресурсный	Малоресурсный	Источник
Productivity gain from AI (software development)	+17.1%	+13.8%	Stanford, ~100K developers, 2025	Рост производительности от ИИ	+17.1%	+13.8%	Stanford, ~100K разработчиков, 2025
Clinical AI advice quality (5-point scale)	3.32 (English)	1.01 (Kazakh)	ScienceDirect, 50 synthetic patients, 2024	Качество клинических советов ИИ	3.32 (английский)	1.01 (казахский)	ScienceDirect, 2024
Business email improvement: actionability	Baseline	−0.59 SD (Arabic)	PMC cross-lingual study, 480 participants, 2025	Улучшение деловой почты	Базис	−0.59 SD (арабский)	PMC, 480 участников, 2025
Global AI adoption: North vs. South	~23%	~13%	Microsoft, 1B+ devices, 2025	Глобальное освоение ИИ: Север vs. Юг	~23%	~13%	Microsoft, 1B+ устройств, 2025
AI adoption gap direction (2025)	Stable or growing	Widening: gap grew 9.8 to 10.6 pp	Microsoft, 2025	Направление разрыва освоения ИИ	Стабильный или растущий	Расширяющийся: 9.8 до 10.6 п.п.	Microsoft, 2025

The South Korea natural experiment is the most compelling evidence. When frontier LLMs improved Hangul capabilities, adoption surged and the country's global rank improved by seven positions within months. Language quality drives adoption. No other variable changed.

Южная Корея — самое убедительное доказательство. Когда передовые LLM улучшили Hangul, освоение выросло и глобальный рейтинг улучшился на семь позиций за месяцы. Качество языка движет освоением.

Part 2 — Understanding the Causes

Часть 2 — Понимание причин

The language AI gap does not have a single cause. Four interlocking categories of factor — structural, institutional, psychological, and historical — each contribute.

Языковой разрыв ИИ не имеет одной причины. Четыре взаимосвязанные категории — структурная, институциональная, психологическая и историческая.

2.1 Structural and Material Causes 2.1 Структурные и материальные причины

Tokenization architecture — Standard byte-pair encoding tokenizers are trained on English-dominated corpora, creating systematic compression disadvantages for other languages — especially morphologically complex ones like Kyrgyz, Kazakh, and Turkish. The SozKZ project demonstrated a language-specific tokenizer achieves 2–3x better efficiency for Kazakh. Parity-aware BPE modifies the encoding algorithm to maximize compression of the worst-compressed language at each merge step. The technical solution exists; deployment lags.

Архитектура токенизации — стандартные токенизаторы обучены на английских корпусах, создавая систематические недостатки сжатия. SozKZ показал, что специфический для языка токенизатор достигает 2–3x лучшей эффективности для казахского. Техническое решение существует; развертывание отстает.

Pricing structure — API pricing is per-token, not per-word or per-character. This creates a direct financial premium for non-English users proportional to tokenization inefficiency. The premium reaches 15x for the most disadvantaged languages, and ranges from 31% to 70% for widely spoken languages like French, Russian, and Arabic. No major AI company has implemented language-adjusted pricing. This is a pricing policy choice, not a technical constraint.

Структура цен — API цена за токен, не за слово или символ. Это создает прямую финансовую надбавку для неанглийских пользователей. Ни одна крупная компания ИИ не внедрила языковую коррекцию цены. Это выбор политики ценообразования, не ограничение.

Infrastructure and connectivity — Only ~38% of Kyrgyzstan's population has internet access, compared to ~79% in Kazakhstan. Lower connectivity reduces both AI adoption and the generation of native-language digital content that could improve AI training data. This creates a compounding disadvantage: fewer users means less feedback data, which means slower quality improvement, which reduces incentive to adopt.

Инфраструктура и связь — только ~38% населения Кыргызстана имеет интернет, vs. ~79% в Казахстане. Низкая связность снижает как освоение ИИ, так и генерацию контента на родном языке. Это создает кумулятивный эффект: меньше пользователей — меньше обратной связи — медленнее улучшение качества.

2.2 Institutional and Systemic Causes 2.2 Институциональные и системные причины

Workforce composition — AI development is concentrated in English-speaking countries and companies. No major AI lab is headquartered in a low-resource language country. When developers build and test in English, edge cases in other languages go unnoticed until users in those languages report them — a systematic quality control gap.

Состав рабочей силы — развитие ИИ сосредоточено в англоязычных странах и компаниях. Ни одна крупная лаборатория ИИ не находится в стране малоресурсного языка. Когда разработчики тестируют на английском, граничные случаи в других языках остаются незамеченными.

Training and recognition feedback — User feedback loops that improve model quality operate predominantly in English. RLHF (reinforcement learning from human feedback) is disproportionately collected in English, meaning quality improvements diffuse more slowly to other languages. The Kazakh case illustrates institutional response: the government built KazLLM, but it attracted only 600,000 users versus 2.6 million for ChatGPT. State-sponsored language AI faces a competitiveness trap.

Обучение и обратная связь — циклы обратной связи работают преимущественно на английском. RLHF собирается непропорционально на английском. Правительство Казахстана построило KazLLM, но оно привлекло только 600 000 пользователей vs. 2.6 млн для ChatGPT.

Post-Soviet institutional inheritance — Soviet-era policies established Russian as the language of science, governance, and formal education across Central Asia. This continues to shape which language Kyrgyz AI researchers write papers in, what data universities digitize, and what language government services are documented in. Kyrgyzstan's AI community, though growing, still relies primarily on pre-built English and Russian models rather than building Kyrgyz-language capability from scratch. This is a rational response to the incentive structure.

Постсоветское институциональное наследие — советские политики установили русский язык как язык науки, управления и образования в Центральной Азии. Это продолжает формировать, на каком языке кыргызские исследователи пишут статьи. Кыргызское сообщество ИИ по-прежнему полагается в основном на предварительно построенные английские и русские модели, а не на создание кыргызских возможностей с нуля.

2.3 Psychological Causes 2.3 Психологические причины

Quality-driven distrust — Unlike the gender AI gap, where distrust often precedes experience, language-based AI distrust is primarily experience-driven. Users who have encountered Kazakh-vocabulary substitutions in Kyrgyz responses, or received clinically useless nutritional advice, have accurate information for their distrust. This matters for intervention design: messaging campaigns cannot solve a problem caused by genuine quality failure. The psychological mechanism here is rational Bayesian updating, not confidence deficit.

Недоверие, основанное на качестве — в отличие от гендерного разрыва ИИ, языковое недоверие в основном основано на опыте. Пользователи, столкнувшиеся с подстановками казахской лексики в кыргызские ответы, имеют точную информацию для своего недоверия. Сообщения не могут решить проблему, вызванную реальным отказом в качестве.

Identity and belonging signals — AI interfaces, default languages, and cultural references signal who the technology is for. When AI responds to Kyrgyz queries in Kazakh, or frames answers in American cultural contexts, it signals "this is not for you" — even beyond the quality failure itself. Evidence that environmental signaling affects adoption is strong in the gender gap literature; direct evidence for the language gap remains limited but the mechanism is plausible.

Сигналы идентичности и принадлежности — интерфейсы ИИ, языки по умолчанию и культурные ссылки сигнализируют, для кого технология. Когда ИИ отвечает на кыргызские запросы на казахском или структурирует ответы в американских культурных контекстах, это сигнализирует «это не для вас».

Language switching costs and identity loss — When users switch from Kyrgyz to Russian or English to access better AI quality, they incur cognitive costs (working in a non-native language) and identity costs (using the language of colonial administration or global capital to access their own knowledge). AI researcher Thien Nguyen (Nature, 2024) described this as "causing a loss of diversity of thought," arguing that English-mediated AI creates homogenization pressure. Quantitative evidence for this mechanism in adoption decisions is sparse.

Затраты на смену языка и потеря идентичности — когда пользователи переходят с кыргызского на русский или английский для доступа к лучшему ИИ, они несут когнитивные затраты и затраты идентичности. Thien Nguyen описал это как «потерю разнообразия мысли», утверждая, что англоязычный ИИ создает давление гомогенизации.

2.4 Cultural and Historical Causes 2.4 Культурные и исторические причины

Soviet-era linguistic hierarchy — The Soviet educational system made Russian the language of advancement and Kyrgyz the language of home and tradition. This established a durable association between Russian-medium activity and professional/technical competence — an association that AI tools now reinforce. Unlike the gender-in-computing historical analogy (where women's representation fell after computers were marketed as "boys' toys"), the Kyrgyz case involves an externally imposed exclusion rather than a marketing-driven one.

Советская языковая иерархия — советская образовательная система делала русский язык языком продвижения, а кыргызский языком дома и традиции. Это установило стойкую ассоциацию между русским и профессиональной компетентностью, ассоциацию, которую инструменты ИИ теперь усиливают.

The 1991 rupture and technological discontinuity — The post-Soviet transition created a sharp technological discontinuity. Soviet-era computing infrastructure (Cyrillic-heavy, Russian-language, isolated from the internet) did not transfer to the internet era. Older cohorts with Soviet technical training found their experience of limited value. This illustrates how historical exclusion can create a gap *after* a rupture event rather than through chronic neglect — a dynamic distinct from most AI gap narratives.

Разрыв 1991 года и технологический разрыв — постсоветский переход создал острый технологический разрыв. Советская вычислительная инфраструктура не перешла в эру интернета. Пожилые когорты с советским техническим обучением нашли свой опыт ограниченной ценности.

Absence of digital cultural presence — Kyrgyz Wikipedia contains ~80,000 articles — 1.2% of English Wikipedia's size. Kyrgyz literary, scientific, and journalistic content has not been digitized at scale. This absence of digital cultural presence precedes and explains AI's failure in the language: you cannot train on content that was never written down online. Cultural content scarcity is not purely historical — it continues to accumulate. Every year that Kyrgyz speakers communicate in Russian online rather than Kyrgyz widens the training data gap for the next generation of models.

Отсутствие цифрового культурного присутствия — кыргызская Википедия содержит ~80 000 статей — 1.2% от английской. Кыргызский литературный, научный и журналистский контент не был оцифрован в масштабе. Это отсутствие объясняет отказ ИИ в языке: вы не можете обучаться на контенте, который никогда не был написан в сети. Каждый год кыргызские говорящие общаются на русском в сети вместо кыргызского расширяет разрыв в данных обучения.

Part 3 — Synthesis and Interventions

Часть 3 — Синтез и интервенции

3.1 The Causes Are Interlocking 3.1 Причины взаимосвязаны

The language AI gap cannot be fixed by any single intervention because its causes form a chain: the historical absence of digital Kyrgyz content → insufficient training data → poorly calibrated tokenizers → higher token cost and worse outputs → user experience of failure → distrust and language switching → less Kyrgyz-language feedback data generated → models remain underpowered → next training cycle reproduces the gap. Each link feeds the next.

Языковой разрыв ИИ не может быть исправлен одним вмешательством, потому что причины образуют цепь: исторические отсутствие цифрового контента → недостаточные данные обучения → плохо калиброванные токенизаторы → более высокие затраты и худшие результаты → отказ пользователя → недоверие и переключение языка → меньше кыргызских данных → модели остаются слабыми → следующий цикл воспроизводит разрыв.

The institutional layer sits across this chain. No actor within the current AI industry has a strong financial incentive to break it: Kyrgyz speakers are a small market; dedicated tokenizers cost money; language-adjusted pricing reduces revenue. The incentive structure points toward the gap persisting without deliberate policy intervention or mission-driven investment.

Институциональный слой находится поперек этой цепи. Ни один участник текущей индустрии ИИ не имеет сильного финансового стимула разорвать цепь: кыргызские говорящие — малый рынок; выделенные токенизаторы стоят деньги; языковая коррекция цены снижает доход.

The psychological layer compounds the structural and institutional gaps. Users who have experienced quality failure develop distrust that may persist even after quality improves. The South Korea case suggests quality improvement can rapidly shift adoption — but overcoming accumulated distrust may take longer than the initial technical fix.

Психологический слой усугубляет структурные и институциональные разрывы. Пользователи, которые испытали отказ в качестве, развивают недоверие, которое может сохраняться даже после улучшения. Южная Корея предполагает, что улучшение качества может быстро сдвинуть освоение.

3.2 What the Evidence Suggests About Intervention 3.2 Что свидетельства предполагают об интервенции

Language-adjusted API pricing (per word or per character) would eliminate the token tax immediately, without any technical work. This is the highest-leverage, lowest-cost intervention available and has not been implemented by any major provider.

Языковая коррекция API цены (за слово или символ) устранила бы налог на токены немедленно, без технической работы. Это самое высокое-рычаг, низкозатратное вмешательство, доступное и не внедренное ни одним крупным поставщиком.

Dedicated tokenizers for agglutinative and morphologically complex languages achieve 2–3x efficiency improvements. This reduces both cost and quality penalties at inference time.

Выделенные токенизаторы для агглютинативных и морфологически сложных языков достигают 2–3x улучшения эффективности.

Quality investment pays adoption returns. The South Korea case shows quality improvement drives adoption rapidly (7-rank global jump within months). Investing in model quality for specific languages produces measurable adoption returns, making it a viable business case even without policy mandates.

Инвестиции в качество окупаются освоением. Южная Корея показывает, что улучшение качества движет освоением быстро. Инвестирование в качество модели для конкретных языков дает измеримые результаты освоения.

Community-driven corpus building is the most sustainable long-term approach — exemplified by Masakhane (Africa), TilCorpusu (Kyrgyz, 100M-word corpus released 2023), and Mozilla Common Voice. These efforts require consistent funding and cannot be treated as one-time projects.

Построение корпуса под руководством сообщества — самый устойчивый долгосрочный подход — Masakhane (Африка), TilCorpusu (кыргызский, 100M-словный корпус выпущен 2023), Mozilla Common Voice.

Sovereign language models (KazLLM, KyrgyzBERT) serve cultural fidelity but face a competitiveness trap on general tasks. They are most likely to succeed as specialized tools for culturally specific domains — government services, healthcare, education — rather than general-purpose competitors to GPT-4.

Суверенные языковые модели (KazLLM, KyrgyzBERT) служат культурной верности, но сталкиваются с ловушкой конкурентоспособности. Они, вероятно, добьются успеха как специализированные инструменты для культурно-специфических областей.

3.3 The Open Question 3.3 Открытый вопрос

The most important unresolved question is whether the language gap will close or widen as AI becomes more deeply embedded in economic life. In the convergence scenario: frontier models continue to improve multilingual performance; community-driven data efforts accumulate critical mass; the economic case for serving large language communities (Hindi, Arabic, Swahili) eventually pulls investment. In the divergence scenario: AI becomes embedded in high-stakes systems while still performing poorly in low-resource languages; path dependency locks in quality gaps; productivity and income divergence documented in 2025 compounds into generational inequality. The current evidence is more consistent with the divergence scenario. The Microsoft data show the gap widening, not narrowing. No major AI company has made structural changes to tokenizer fairness or pricing.

Наиболее важный нерешенный вопрос — будет ли языковой разрыв закрываться или расширяться по мере более глубокого встраивания ИИ. В сценарии конвергенции: передовые модели продолжают улучшать многоязычную производительность. В сценарии дивергенции: ИИ встраивается в высокорисковые системы при плохой производительности. Текущие данные более согласуются с дивергенцией. Microsoft показывает расширение разрыва.

Selected Sources

Избранные источники

Authors / Source	Year	Title / Publication	Авторы	Год	Название
Petrov et al.	2023	Do All Languages Cost the Same? Tokenization in the Era of Commercial Language Models. EMNLP 2023 / NeurIPS 2023	Petrov et al.	2023	Do All Languages Cost the Same? EMNLP 2023
Token Tax (arXiv 2509.05486)	2025	The Token Tax: Systematic Bias in Multilingual Tokenization. arXiv	Token Tax	2025	The Token Tax: Systematic Bias. arXiv
Microsoft AI Economy Institute	2025	Global AI Adoption in 2025. 147 countries, 1B+ devices	Microsoft AI	2025	Global AI Adoption in 2025. 147 стран
SozKZ project	2025	Training Efficient Small Language Models for Kazakh from Scratch. arXiv 2603.20854	SozKZ project	2025	Training Efficient Small Language Models. arXiv
Stanford HAI / Koyejo	2025	Closing the Digital Divide in AI. Policy white paper	Stanford HAI	2025	Closing the Digital Divide in AI. White paper
ScienceDirect	2024	Evaluating ChatGPT's Multilingual Performance in Clinical Nutrition Advice Using Synthetic Medical Text: Insights from Central Asia. Journal of Nutrition	ScienceDirect	2024	Evaluating ChatGPT's Multilingual Performance. Journal of Nutrition
Kursiv.media	2025	ChatGPT's Linguistic Blunder: Kyrgyz Prompts, Kazakh Replies. June 2025	Kursiv.media	2025	ChatGPT's Linguistic Blunder. June 2025
KPMG / Univ. Melbourne	2025	Trust, Attitudes and Use of Artificial Intelligence: A Global Study. N=48,340, 47 countries	KPMG / Melbourne	2025	Trust, Attitudes and Use of AI. N=48 340
Sharma et al. (Johns Hopkins)	2025	Faux Polyglot: A Study on Information Disparity in Multilingual LLMs. NAACL 2025	Sharma et al.	2025	Faux Polyglot: Information Disparity. NAACL
UNDP Eurasia	2025	No Language Left Behind: How to Bridge the Rapidly Evolving AI Language Gap	UNDP Eurasia	2025	No Language Left Behind: Bridge AI Gap
Parity-Aware BPE	2025	Parity-Aware Byte-Pair Encoding: Improving Cross-lingual Fairness in Tokenization. arXiv 2508.04796	Parity-Aware BPE	2025	Parity-Aware Byte-Pair Encoding. arXiv

The Language Gap in AI Adoption Языковой разрыв во внедрении ИИ