Что случилось с пенсиями?
ChatGPT для EveningProphet
Неделю назад Маск шокировал общественность информацией о миллионах “мертвых душ” в базе данных выплат американской системы соцстраха. Около 5% населения оказалось “приписками” - результат, которому бы Чичиков обзавидовался. Медиа бросились оправдывать госструктуры и рассуждать о “технических особенностях” программирования на COBOL. Но мы не будем слушать кожаных журналистов - а узнаем у ChatGPT что он думает по этому поводу.
Возможные причины ошибок в распределении возрастов получателей социальной помощи
При анализе аномальных значений в таблице распределения возрастов получателей социальной помощи в США необходимо рассмотреть ряд факторов. Ниже изложены потенциальные причины ошибок, разделенные на три группы (технические, административные, исторические/системные), с оценкой того, насколько каждое объяснение достаточно и вероятно влияет на возникновение аномалий.
1. Технические ошибки
Технические проблемы при работе с данными способны привести к появлению неверных возрастов в статистике. Хотя современные системы обычно включают средства контроля качества данных, технические ошибки все же случаются. Рассмотрим несколько типов таких ошибок:
Ошибки в обработке и загрузке данных: Сбои при переносе или обновлении данных могут приводить к искажениям. Например, при неправильном импорте данных часть записей может дублироваться или возраст рассчитывается неверно. Любая неточность на этапе ETL (Extract-Transform-Load) способна породить цепочку ошибок в итоговой базе (aisp.upenn.edu). Такие случаи встречаются относительно редко и обычно выявляются при проверках, однако даже единичный сбой может повлиять на распределение возрастов (например, если целый пакет записей загрузился дважды или со смещением дат рождения).
Дубликаты записей: Дублирование одного получателя в базе данных искусственно увеличивает число людей определенного возраста. Например, если один человек заведён в системе дважды (из-за опечатки в имени или параллельного учета в двух ведомствах), статистика сочтет их двумя получателями одного возраста. Аудиты социальных программ периодически выявляют дублирование – так, при проверке в Массачусетсе из 178 проблемных записей 13 оказались дубликатами (cbsnews.com). Дубликаты относительно легко обнаружить и устранить при наведении порядка в данных, поэтому их вклад в серьезные аномалии обычно ограничен. Тем не менее, если дубликаты присутствуют массово, они могут исказить распределение (например, завысить численность в некоторых возрастных категориях).
Ошибки кодирования данных (неверный формат дат рождения): Неправильное хранение или форматирование даты рождения приводит к некорректному расчету возраста. Пример – перепутанные местами день и месяц или ошибочно интерпретированный год. В ряде случаев пропущенные или некорректные даты рождения автоматически заменяются на значения по умолчанию. В старых системах, не поддерживающих современный тип данных «дата», применялись фиксированные опорные даты. Например, в информационных системах на языке COBOL (до сих пор используемых в ряде государственных структур США) отсутствует собственный тип даты, из-за чего разработчики вводили константную опорную дату (например, 20 мая 1875 года) для вычислений (wired.com). Если у получателя в базе отсутствует дата рождения, система может подставить эту опорную дату, и тогда в 2025 году его возраст вычисляется как ~150 лет (wired.com). Такое техническое ограничение способно породить целую группу аномальных возрастов ровно в 150 лет, что не отражает реальность. Кроме того, человеческий фактор при вводе данных также играет роль: банальная опечатка или перестановка цифр в дате рождения (например, 1932 вместо 1982) приведёт к тому, что человеку ошибочно присвоится возраст на десятки лет старше (hmismn.org). В целом, ошибки форматирования/кодирования данных объясняют наличие отдельных нелогичных значений (например, возраст >120 лет у некоторых записей), но обычно они затрагивают сравнительно небольшое число записей и выявляются при проверке экстремальных значений.
Оценка влияния технических причин: Технические ошибки могут вносить существенные искажения, особенно если носят системный характер (как в случае с опорной датой COBOL). Однако в современных условиях единичные сбои (например, дубликаты, разовый неудачный импорт) чаще всего быстро обнаруживаются. Таким образом, технические проблемы способны объяснить некоторые аномалии (включая выбросы в распределении возрастов), но маловероятно, что только технические факторы породили бы масштабные систематические ошибки без участия административных или исторических причин.
2. Административные ошибки
Административное ведение базы данных о получателях играет ключевую роль в актуальности информации. Административные ошибки возникают из-за человеческого фактора и организационных недочетов при обновлении сведений о получателях. Они могут привести к тому, что данные о возрасте устаревают или искажаются. Рассмотрим возможные случаи:
Некорректный учет умерших людей: Одной из наиболее существенных причин аномалий является то, что часть получателей, фактически умерших, остаются отмечены в системе как живые. Если смерть не зафиксирована в базе, человек продолжает числиться в списках, и его возраст продолжает увеличиваться с годами. Это приводит к появлению в статистике крайне пожилых “получателей”, возраст которых превышает реальные границы человеческой жизни. Проверки показывают огромный масштаб этой проблемы. Например, по данным Управления Генерального инспектора (OIG) SSA, в базе Social Security Administration накопилось 18,9 млн. записей о людях, родившихся в 1920 году или ранее, у которых не указана дата смерти (oig.ssa.gov). Практически все эти люди, разумеется, уже скончались (по оценке SSA, более 98% лиц старше 100 лет в их базе не получают никаких выплат и фактически мертвы) (wired.com, oig.ssa.gov). Однако отсутствие отметки о смерти означает, что в статистике они продолжают учитываться как живые. Такая административная инертность в обновлении данных прямо приводит к аномально завышенным показателям числа долгожителей. Это объяснение весьма убедительно и, скорее всего, является главным фактором появления сверхвысоких возрастов в таблице. Иными словами, необновление статуса умерших – достаточная причина, чтобы объяснить большую часть выявленных аномалий в верхних возрастных группах.
Проблемы с удалением или обновлением данных: Сюда относятся случаи, когда изменение статуса получателя (например, прекращение выплат, выезд из программы) не отражается своевременно в базе. Возможно дублирование информации между федеральными и местными системами, задержки в обмене данными между ведомствами или просто человеческая забывчивость. В результате в базе могут оставаться устаревшие записи. Пример негативного влияния таких сбоев – когда умершего получателя не удаляют из платежной системы, и выплаты продолжаются. В одном документированном случае Управление по делам персонала (OPM) ошибочно выплачивало пенсию умершему сотруднику в течение 37 лет, пока деньги получал его сын, потому что в учетных данных не значилось, что получатель умер (gao.gov). Этот случай демонстрирует, что при отсутствии своевременного обновления данных система долгое время может считать человека живым и продолжать выплаты. Кроме того, проверки на уровне штатов выявляли немало ситуаций, где получатели либо уже выбыли из программы, либо значатся под разными идентификаторами. Например, аудит в Массачусетсе обнаружил, что десятки получателей числились активными из-за того, что их кейсы не были закрыты корректно на момент проверки (cbsnews.com). Подобные проблемы с актуализацией данных, хотя и не столь масштабны, как миллионы “пропущенных смертей”, тоже вносят вклад в искажения распределения – они могут создавать «призрачных» получателей или, наоборот, временно исключать действительных. Вероятность таких ошибок возрастает при больших объемах данных и недостатках в координации между учреждениями.
Ошибки при регистрации новых получателей: На этапе заведения нового получателя социальной помощи в систему возможны ошибки ввода. Неправильное указание даты рождения при регистрации – не такая уж редкость, учитывая человеческий фактор. Например, спешка или нечитаемое рукописное заявление могут привести к тому, что сотрудник введет неверные цифры (скажем, год рождения 2002 вместо 1920, или наоборот) (hmismn.org). Если такие ошибки не исправить, в базе появятся молодые получатели с чрезмерно большим возрастом или пожилые – с слишком малым. В масштабах целой страны доля подобных ошибок невелика, и обычно они выявляются при первичной проверке документов. Тем не менее, в таблице распределения возрастов единичные казусы (например, 5-летний “получатель” с датой рождения 1918 из-за опечатки) способны породить заметный аномальный всплеск на графике. Таким образом, регистрационные ошибки могут объяснить отдельные выбросы или нестыковки в данных, хотя систематической ошибки на уровне агрегированной статистики они, как правило, не создают.
Оценка влияния административных причин: Административные факторы, особенно неучтенные смерти, являются весьма вероятным и существенным источником аномалий. Некорректный учет умерших представляет собой достаточное объяснение для наблюдения множества сверхстолетних “получателей” – большинство таких записей возникло именно потому, что система их не сняла своевременно. Прочие административные промахи (задержки обновлений, ошибки ввода) скорее дополняют картину, вызывая точечные искажения. В совокупности административные ошибки имеют высокую вероятность влияния на распределение возрастов, причем некоторые (неучтенные смерти) вносят очень заметный, хотя и нежелательный, вклад.
3. Исторические и системные причины
Некоторые аномалии могут быть обусловлены долгосрочными и унаследованными проблемами систем учета. Исторические и системные причины связаны с самим устройством и эволюцией информационных систем социальной помощи, а также с умышленными нарушениями. Они часто носят комплексный характер и могут быть менее очевидны, но существенно влияют на качество данных.
Устаревшие механизмы ведения баз данных: Инфраструктура IT в государственных социальных службах США формировалась десятилетиями. Многие ключевые системы (например, базы данных Социального обеспечения) были разработаны несколько десятков лет назад, в эпоху мейнфреймов. Использование устаревших технологий накладывает ограничения на формат и ведение данных. Яркий пример – упомянутая выше система SSA на базе COBOL, где отсутствие современных типов данных вынудило использовать нестандартные решения для хранения дат (wired.com). Кроме того, старые системы может быть сложно интегрировать с новыми, из-за чего автоматическая сверка данных (например, по факту смерти с реестрами актов гражданского состояния) может работать неэффективно. Итог – накопление ошибок в данных с течением времени. Поскольку модернизация таких систем требует значительных ресурсов, нередко учреждения вынуждены жить с проблемой. В упомянутом отчете OIG SSA прямо указано, что обновлять миллионы старых записей нерентабельно с точки зрения затрат (wired.com), поэтому эти “аномальные” данные продолжают присутствовать в статистике. Таким образом, исторически устаревшие ИТ-системы являются достаточным и очень весомым объяснением устойчивых аномалий: они создают условия, при которых ошибки не только возникают (из-за технических ограничений), но и не устраняются годами.
Наследование данных из старых бумажных архивов: Переход от бумажного учета к электронным базам в социальной сфере произошел не одномоментно. В середине XX века данные о получателях и застрахованных лицах (Social Security) частично велись на бумаге, затем мигрировали в электронный формат. В этом процессе могла быть потеряна часть информации. Например, не для всех родившихся до 1900-х годов были изначально указаны даты смерти в электронных системах – многие из этих людей никогда не обращались за пособиями в зрелом возрасте, и сведения о их смерти не поступали в SSA. Это объясняет, почему миллионы записей людей, родившихся до 1920 г., остаются без отметки о смерти (oig.ssa.gov, oig.ssa.gov) – просто исторически не было механизма отметить кончину каждого из них, особенно если это происходило до компьютеризации или вне контекста выплаты пособий. Кроме того, данные из старых архивов могли содержать опечатки или неоднозначности (например, разные написания имен, что затрудняет объединение досье одного человека и может привести к дубликатам). Историческое наследие данных в целом создаёт фоновые аномалии: отдельные неправильные возраста, незакрытые записи, странные пики в распределении, которые не обусловлены текущими ошибками, а тянутся “хвостом” с прошлого. Вероятность влияния данного фактора очень высока, поскольку практически вся современная база опирается на данные, накапливаемые десятилетиями. Эти проблемы трудно полностью устранить постфактум, и потому они до сих пор просачиваются в статистику.
Возможное мошенничество: Хотя большинство ошибок связано с неумышленными факторами, намеренные злоупотребления тоже могут стать причиной аномальных данных. Речь идет о случаях, когда сведения умышленно искажаются или не обновляются, чтобы незаконно получать выплаты. Например, использование данных умерших людей для продолжения выплат – известная мошенническая схема. Родственники или другие лица иногда не сообщают о смерти получателя, подделывают документы и продолжают получать за него деньги (oig.ssa.gov). Если такой обман удается, в базе данных умерший будет значиться живым, а его возраст – расти за пределы нормального. Выявленные случаи подобного рода единичны в сравнении с масштабами общей базы, но все же происходят. Так, комментаторы в соцсетях, обсуждая обнаруженные записи 100+ летних получателей, прямо указывали, что это может быть “масштабный сигнал мошенничества” (timesofindia.indiatimes.com). Государственные органы, отвечающие за выплаты, регулярно проводят проверки на предмет выплат “мертвым душам”. В целом мошенничество как причина аномалий оценивается как относительно редкое, но значимое: оно не столь распространено, чтобы объяснить миллионы аномальных записей (основная масса все же связана с упущенными обновлениями и старыми данными), однако каждый выявленный факт мошенничества подрывает доверие к системе и может способствовать наличию отдельных неверных возрастов в статистике.
Оценка влияния историко-системных причин: Долговременные системные проблемы – одни из наиболее весомых факторов, объясняющих массовые и устойчивые аномалии. Устаревшие ИТ-системы и исторически накопленные дефекты данных фактически создают основу, на которой возникают и остаются ошибки (например, пресловутые десятки миллионов “бессмертных” получателей старше 100 лет). Эти причины обладают высокой достаточностью – без их учета невозможно понять природу наблюдаемых выбросов. Мошенничество дополняет картину: оно вносит меньший количественный вклад, но вероятность его наличия нельзя исключать, особенно в тех сегментах, где данные заведомо некорректны (что создает лазейки для злоумышленников).
Выводы
Анализ показал, что основной вклад в аномалии вносит наследие устаревших процессов учета – технических и административных. Технические сбои и человеческие ошибки дополняют картину, усиливая разброс неверных значений. Хотя каждое из объяснений по отдельности проливает свет лишь на часть проблем, вместе они охватывают почти все вероятные источники искажения данных.
Ни одно государственное ведомство США не публикует абсолютно точной, единой цифры по сумме именно мошеннических (fraudulent) выплат по всем социальным программам. Обычно госорганы оперируют понятием «неправомерные выплаты» (improper payments), куда входят как умышленные мошенничества, так и неумышленные ошибки (например, технические сбои, пропуск сроков обновления данных и т. д.). Из всего объёма «неправомерных» выплат лишь часть признаётся заведомым мошенничеством. Поэтому при оценке масштаба именно мошеннических выплат приходится опираться на косвенные данные, которые дают Управление Генерального инспектора (OIG), Счётная палата (GAO) и Отдел управления и бюджета (OMB) США.
Ниже приводятся ориентировочные расчёты по открытым данным последних лет для всех ключевых социальных программ в США (социальное обеспечение/SSA, Medicare, Medicaid, SNAP, страхование по безработице и т. д.). Часть оценок основана на пропорциях, которые GAO и OIG получают при детальных проверках «неправомерных» платежей и отделяют оттуда подозрительные транзакции, которые классифицируются как «вероятное или подтверждённое мошенничество».
1. Базовые ориентиры по «неправомерным» выплатам
По данным OMB, совокупный объём неправомерных (improper) выплат по федеральным программам США в последние годы колеблется в диапазоне примерно 200–280 млрд долл. в год (суммарно по десяткам крупнейших программ, включая здравоохранение, социальное обеспечение, пособия по безработице, продовольственные талоны и т. п.).
По оценкам Счётной палаты (GAO) и отдельных проверок, доля умышленных мошеннических действий может составлять от 5% до 20% в общем «пуле» improper payments (остальное – это неумышленные ошибки, опечатки, задержки и т. д.). Такие большие разбросы объясняются разницей в методиках проверок: в одних аудитах, где целенаправленно ищут аферы, доля мошенничества может вырастать, а в обобщённой статистике по всем программам она зачастую ниже.
Таким образом, если брать грубо 5–20% от общего объёма в 200–280 млрд долл., получается очень широкий «сырой» диапазон (10–56 млрд долл.) потенциально мошеннических выплат в год (по всему спектру соцпрограмм). Однако это лишь первичная прикидка на базе суммарной статистики improper payments и оценки доли собственно fraud.
2. Узкий и широкий доверительные диапазоны
Чтобы приблизиться к более реалистичной вилке, обычно делают дополнительные поправки по конкретным крупнейшим программам:
Medicare и Medicaid (совокупно под 1 трлн долл. в год выплат):
Уровень неправильных выплат здесь (по разным годам) колеблется в районе 8–10% от общего бюджета, причём подтверждённая мошенническая составляющая обычно оценивается GAO и HHS (Минздрав) в несколько процентов (1–3%) от общей суммы.
Таким образом, примерно из условных 80–100 млрд долл. «неправомерных» в Medicare/Medicaid мошенничеством признаётся в пределах 15–30 млрд долл. (суммарно) в некоторые годы.
Социальное обеспечение (SSA: OASDI, SSI) – около 1,2 трлн долл. в год:
Уровень неправильных выплат SSA официально оценивает на уровне 0,5–1,0% (это порядка 6–12 млрд долл.). Однако здесь больше доля неумышленных «ошибок» (выход за лимиты дохода в SSI, несвоевременные обновления и пр.), чем подтверждённых мошеннических схем.
По данным Управления Генерального инспектора SSA, прямое мошенничество (например, получение пособий на «мертвых душ» или сокрытие обстоятельств) в разные годы занимает от 10% до 30% от общей суммы выявленных «неправомерных» выплат в SSA. Это даёт ориентир от 0,6 до 3 млрд долл. в год.
Прочие программы (продовольственные талоны SNAP, страхование по безработице, помощь семьям с детьми и т. п.):
SNAP (около 100 млрд долл. в год) имеет показатели неправильных выплат, которые последние годы держатся на уровне 6–7%. Мошенничеством там признаётся 1–2% от общей суммы выплат (по данным FNS и GAO). То есть 1–2 млрд долл. потенциально мошеннических ежегодно.
Страхование по безработице (Unemployment Insurance) в периоды кризисов (например, в 2020–21 гг.) показывало взрывообразный рост мошенничества, оцененный вплоть до 10–15% от общей суммы выплат в «ковидные» годы. Но в «стабильные» периоды эта величина меньше. В 2019 г., до пандемии, GAO оценивала около 3–5% неправильных выплат, из которых мошенничество составляло от 1 до 2 млрд долл.
И т. д. по более мелким федеральным и штатным программам, где абсолютная сумма мошенничества меньше.
Если суммировать самые крупные сегменты (Medicare/Medicaid + SSA + SNAP + Unemployment Insurance + несколько других), выходит, что подтверждённые мошеннические выплаты (а также обоснованно подозреваемые, т. е. с высокой вероятностью fraud) в целом находятся не ниже 20–30 млрд долл. в год. Верхняя граница при этом может быть существенно выше, если учесть, что не все мошеннические кейсы официально зафиксированы (часть «неправомерных» выплат статистически не удаётся чётко разделить на ошибки и умышленные действия).
Широкая оценка (wide range)
10–60 млрд долл. в год — примерно такой «грубый» разлёт озвучивают в журналистских расследованиях и ряде отчётов GAO/OMB (когда суммарно берут 5–20% от improper payments). Эту вилку можно считать крайне широкой, отражающей неопределённость в отношении реальной доли мошенничества.
Более узкая оценка (narrow range)
25–40 млрд долл. в год — ориентир, который складывается из сумм по крупнейшим программам, где мошенничество более-менее регулярно меряется (Medicare, Medicaid, SSA, SNAP, Unemployment). Эта цифра учитывает, что не вся доля неправильных выплат — это мошенничество, но при этом у крупных программ есть устойчивая несколькопроцентная доля fraud от общего бюджета.
Таким образом, узкий доверительный диапазон по оценкам экспертов и аудиторов в последние 3–5 лет обычно попадает в коридор 25–40 млрд долл. ежегодно. В отдельных всплесках (как в ковидные 2020–21 гг.) сумма могла кратковременно подниматься заметно выше, особенно по программам страхования безработицы.

