Как рассчитать статистическую достоверность
Как рассчитать статистическую достоверность
В практической и научно-практической работе врачи обобщают результаты, полученные как правило на выборочных совокупностях. Для более широкого распространения и применения полученных при изучении репрезентативной выборочной совокупности данных и выводов надо уметь по части явления судить о явлении и его закономерностях в целом.
Учитывая, что врачи, как правило, проводят исследования на выборочных совокупностях, теория статистики позволяет с помощью математического аппарата (формул) переносить данные с выборочного исследования на генеральную совокупность. При этом врач должен уметь не только воспользоваться математической формулой, но сделать вывод, соответствующий каждому способу оценки достоверности полученных данных. С этой целью врач должен знать способы оценки достоверности.
Применяя метод оценки достоверности результатов исследования для изучения общественного здоровья и деятельности учреждений здравоохранения, а также в своей научной деятельности, исследователь должен уметь правильно выбрать способ данного метода. Среди методов оценки достоверности различают параметрические и непараметрические.
Параметрическими называют количественные методы статистической обработки данных, применение которых требует обязательного знания закона распределения изучаемых признаков в совокупности и вычисления их основных параметров.
Непараметрическими являются количественные методы статистической обработки данных, применение которых не требует знания закона распределения изучаемых признаков в совокупности и вычисления их основных параметров.
Как параметрические, так и непараметрические методы, используемые для сравнения результатов исследований, т.е. для сравнения выборочных совокупностей, заключаются в применении определенных формул и расчете определенных показателей в соответствии с предписанными алгоритмами. В конечном результате высчитывается определенная числовая величина, которую сравнивают с табличными пороговыми значениями. Критерием достоверности будет результат сравнения полученной величины и табличного значения при данном числе наблюдений (или степеней свободы) и при заданном уровне безошибочного прогноза.
Таким образом, в статистической процедуре оценки основное значение имеет полученный критерий достоверности, поэтому сам способ оценки достоверности в целом иногда называют тем или иным критерием по фамилии автора, предложившего его в качестве основы метода.
При проведении выборочных исследований полученный результат не обязательно совпадает с результатом, который мог бы быть получен при исследовании всей генеральной совокупности. Между этими величинами существует определенная разница, называемая ошибкой репрезентативности, т.е. это погрешность, обусловленная переносом результатов выборочного исследования на всю генеральную совокупность.
Данный способ применяется в тех случаях, когда по результатам выборочной совокупности необходимо судить о размерах изучаемого явления (или признака) в генеральной совокупности.
Обязательным условием для применения способа является репрезентативность выборочной совокупности. Для переноса результатов, полученных при выборочных исследованиях, на генеральную совокупность необходима степень вероятности безошибочного прогноза (Р), показывающая, в каком проценте случаев результаты выборочных исследований по изучаемому признаку (явлению) будут иметь место в генеральной совокупности.
При определении доверительных границ средней величины или относительного показателя генеральной совокупности, исследователь сам задает определенную (необходимую) степень вероятности безошибочного прогноза (Р).
Для большинства медико-биологических исследований считается достаточной степень вероятности безошибочного прогноза, равная 95%, а число случаев генеральной совокупности, в котором могут наблюдаться отклонения от закономерностей, установленных при выборочном исследовании, не будут превышать 5%. При ряде исследований, связанных, например, с применением высокотоксичных веществ, вакцин, оперативного лечения и т.п., в результате чего возможны тяжелые заболевания, осложнения, летальные исходы, применяется степень вероятности Р = 99,7%, т.е. не более чем у 1% случаев генеральной совокупности возможны отклонения от закономерностей, установленных в выборочной совокупности.
Заданной степени вероятности (Р) безошибочного прогноза соответствует определенное, подставляемое в формулу, значение критерия t, зависящее также и от числа наблюдений.
Вывод. Установлено с вероятностью безошибочного прогноза Р = 95%, что средняя частота пульса в генеральной совокупности, т.е. у всех водителей сельскохозяйственных машин, через 1 ч работы в аналогичных условиях будет находиться в пределах от 78 до 82 ударов в минуту, т.е. средняя частота пульса менее 78 и более 82 ударов в минуту возможна не более, чем у 5% случаев генеральной совокупности.
на определение ошибок репрезентативности (m) и доверительных границ относительного показателя генеральной совокупности (Рген)
Условие задачи: при медицинском осмотре 164 детей 3 летнего возраста, проживающих в одном из районов городе Н., в 18% случаев обнаружено нарушение осанки функционального характера.
Задание: определить ошибку репрезентативности (mp) и доверительные границы относительного показателя генеральной совокупности (Рген).
Вывод. Установлено с вероятностью безошибочного прогноза Р=95%, что частота нарушения осанки функционального характера у детей 3 летнего возраста, проживающих в городе Н., будет находиться в пределах от 12 до 24% случаев.
Данный способ применяется в тех случаях, когда необходимо определить, случайны или достоверны (существенны), т.е. обусловлены какой-то причиной, различия между двумя средними величинами или относительными показателями.
Обязательным условием для применения данного способа является репрезентативность выборочных совокупностей, а также наличие причинно-следственной связи между сравниваемыми величинами (показателями) и факторами, влияющими на них.
Формулы определения достоверности разности представлены следующим образом:
для средних величин
для относительных
показателей
Если вычисленный критерий t более или равен 2 (t ≥ 2), что соответствует вероятности безошибочного прогноза Р равном или более 95% (Р ≥ 95%), то разность следует считать достоверной (существенной), т.е. обусловленной влиянием какого-то фактора, что будет иметь место и в генеральной совокупности.
При t 99,7%, следовательно можно утверждать, что различия в средних значениях пульса у водителей сельскохозяйственных машин до и после 1 ч работы не случайно, а достоверно, существенно, т.е. обусловлено влиянием воздействия шума и низкочастотной вибрации.
на оценку достоверности разности относительных показателей
Условие задачи: при медицинском осмотре детей 3 летнего возраста в 18% (m = ± 3%) случаях обнаружено нарушение осанки функционального характера. Частота аналогичных нарушений осанки при медосмотре детей 4-летнего возраста составила 24% (m = ± 2,64%).
Задание: оценить достоверность различий в частоте нарушения осанки у детей 2 возрастных групп.
Применение методов статистического анализа для изучения общественного здоровья и здравоохранения. Под ред. чл.-корр. РАМН, проф. В.З.Кучеренко. М., «Гэотар-Медиа», 2007, учебное пособие для вузов
Раздел 6. Статистическая оценка достоверности результатов исследования
Под достоверностью статистических показателей следует понимать степень их соответствия отображаемой ими действительности. Достоверными результатами считаются те, которые не искажают и правильно отражают объективную реальность.
Оценить достоверность результатов исследования означает определить, с какой вероятностью возможно перенести результаты, полученные на выборочной совокупности, на всю генеральную совокупность.
В большинстве медицинских исследований врачу приходится, как правило, иметь дело с частью изучаемого явления, а выводы по результатам такого исследования переносить на все явление в целом — на генеральную совокупность.
Таким образом, оценка достоверности необходима для того, чтобы по части явления можно было бы судить о явлении в целом, о его закономерностях.
Мера достоверности результатов (ошибка репрезентативности) | |||
При среднеарифметической (M) | При относительной величине (P) | ||
Практическое применение Позволяет определить вероятность с которой возможно перенести результаты изучения с выборочной совокупности на генеральную совокупность | |||
Способы оценки достоверности | |||
Доверительные границы параметра | Достоверность разницы параметра | ||
(При М) M±tm | (При P) P±tm | При средних арифметических | При относительных величинах |
Доверительная вероятность в медицинских исследованиях | |||
В медико-биологических исследованиях вероятность 95% и более, т.е. при минимуме удвоенной ошибки (t=2) | Разница достоверна при t≥2 с вероятностью 95% и более |
Оценка достоверности результатов исследования предусматривает определение:
1) ошибок репрезентативности (средних ошибок средних арифметических и относительных величин) — m
2) доверительных границ средних (или относительных) величин
3) достоверности разности средних (или относительных) величин (по критерию t)
4) достоверности различия сравниваемых групп по критерию χ 2
Оценка достоверности результатов статистического исследования (относительные величины).
При изучении генеральной (сплошной) совокупности для ее количественной характеристики достаточно расчитать Mи σ. Однако на практике, как правило, исследование проводят на выборочной совокупности, которая должна быть репрезентативно (достоверна) или представительна для генеральной совокупности. Репрезентативность выборочной совокупности оценивают специальными методами отбора, она означает представительность в ней всех учитываемых признаков генеральной совокупности.
Под достоверностью статистических показателей следует понимать степень их соответствия отображаемой ими действительности. Достоверными результатами считаются те, которые не искажают и правильно отражают объективную реальность.
Оценить достоверность результатов исследования означает определить, с какой вероятностью возможно перенести результаты, полученные на выборочной совокупности, на всю генеральную совокупность.
В большинстве медицинских исследований врачу приходится, как правило, иметь дело с частью изучаемого явления, а выводы по результатам такого исследования переносить на все явление в целом – на генеральную совокупность.
Таким образом оценка достоверности необходима для того, чтобы по части явления должно было бы судить о явлений в целом, о его закономерности.
Оценка достоверности результатов исследования предусматривает вычмсление:
1) Ошибок репрезентативности (средней ошибки m для средних M или относительных P величин;
2) Доверительных границ средних (M) или относительных (P) величин;
3) Достоверности разности средних (M) или относительных (P) величин по критерию t.
4) Достоверности различия сравниваемых групп по критерию X 2 (хи-квадрат).
2.2. Определение средней ошибки средней (или относительной) величины (ошибки репрезентативности) – m.
Ошибка репрезентативности (m) является важнейшей статистической величиной, необходимой для оценки достоверности результатов исследования. Это ошибка возникает в тех случаях, когда требуется по части охарактеризовать явление в целом. Эти ошибки неизбены. Они проистекают из сущности выборочного исследования; генеральная совокупность может быть охарактеризована по выборочной совокупности только с некоторой погрешностью, измеряемой ошибкой репрезентативности.
Ошибки репрезентативности нельзя смешивать с обычным представлением об ошибках: методических, точности измерения, арифметических и др.
Ошибки репрезентативности можно свести к достаточно малой величине, т.е. к величине допустимой погрешности. Делается это путем привлечения в выборку достаточного количества наблюдений (n).
при n 30mM =
,
при n 30 mM =
,
где mM– ошибка средней величины;
σ – среднее квадратическое отклонение;
n – число наблюдений.
Из данной формулы следует, что величина средней ошибки средней арифметической прямо пропорциональна степени разнообразия признака и обратно пропорциональна степени корню квадратному из числа наблюдений. Следовательно, уменьшение величины этой ошибки при определении степени разнообразия (σ) возможно путем увеличения числа наблюдений.
На этом принципе основан метод определения достаточного числа наблюдений для выборочного исследования.
Относительные величины (P), полученные при выборочном исследовании, также имеют свою ошибку репрезентативности, которая называется средней ошибкой относительной величины и обозначается mP.
Для определения средней ошибки относительной величины (P) используется следующая формула:
mP =
где P – относительная величина. Если показатель выражен в процентах, то q = 100-P, если P в промиллях, то q = 1000-P, если P – в продецимиллях, тоq = 10000-P,и т.д.; n – число наблюдений. При числе наблюдений менее 30 в знаменатель следует взять n-1.
mP =
2.3. Определение доверительных границ M и P.
Определяя для средней арифметической или (относительной ) величины два крайних значения: минимально возможное и максимально возможное, находят пределы, в которых может быть искомая величина генерального параметра. Эти пределы называют доверительными границами.
Доверительные границы средней арифметической в генеральной совокупности определяют по формуле:
Mген. = Mвыб. tmM,
где Mген. –средняя величина признака в генеральной совокупности,
Mиыб.-средняя величина, полученная в результате исследованиявыборочной совокупности
tmM= — доверительный интервал (или максимальная ошибка).
Доверительные границы относительной величины в генеральной совокупности определяют по следующей формуле:
Pген. = Pвыб. tmp,
гдеPген. – показатель в генеральной совокупности,
Pиыб.-средняя величина,показатель, полученный в результате исследования выборочнойсовокупности,
tmp — доверительный интервал (или максимальная ошибка)/
Понятие «вероятность безошибочного прогноза» (P) – это вероятность, с которой можно утверждать, что в генеральной совокупности Mбудет находиться в пределах M tmM(или P–в пределах P
tmP).
Если n 30 при P = 95 % и P = 99 %, критерий t находится по таблице Стьюдента (табл. 8). Если n
30 при P = 95 %t= 2, при P= 99 % t = 3.
Для абсолютного большинства медицинских исследований степень вероятности безошибочного прогноза (P) должна быть не менее 95 %.
Значения критерия Стьюдента (t)
K = n – 1 | ДОВЕРИТЕЛЬНАЯ ВЕРОЯТНОСТЬ (P) | |
95.5 % (0.95) | 99.7 % (0.99) | 99.9 % (0.999) |
12,70 4,30 3,18 2,78 2,57 2,42 2,36 2,31 2,26 2,23 2,20 2,16 2,14 2,13 2,12 2,11 2,10 2,09 2,09 2,08 2,07 2,07 2,06 2,06 2,06 2,05 2,05 2,04 2,04 | 63,56 9,92 5,84 4,60 4,03 3,71 3,50 3,36 3,25 3,17 3,11 3,06 3,01 2,98 2,95 2,92 2,90 2,88 2,86 2,84 2,83 2,82 2,81 2,80 2,79 2,78 2,77 2,76 2,76 2,76 | 36,59 31,60 12,94 8,61 6,86 5,96 5,31 5,04 4,78 4,59 4,44 4,32 4,22 4,14 4,07 4,02 3,96 3,92 3,88 3,85 3,82 3,79 3,77 3,75 3,73 3,71 3,69 3,67 3,66 3,64 |
2.4. Определение достоверности разности средних (M) или относительных (P) величин по критерию t.
В медицине и здравоохранении по разности параметров оценивают средние и относительные величины, полученные для разных групп населения по полу, возрасту, а также групп больных и здоровых и т.д. Во всех случаях при сопоставлении двух сравниваемых величин возникает необходимость не только определить их разность, но и оценить ее достоверность.
Достоверность разности величин, полученных при выборочных исследованиях, означает, что вывод об их различии может быть перенесен на соответствующие генеральные совокупности.
Достоверность выборочной разности измеряется доверительным критерием (критерием точности t), который рассчитывается по специальным формулам для средних и относительных величин.
Формула оценки достоверности разности сравниваемых средних величин такова:
t= ,
и для относительных величин:
t= ,
где M1,M2, P1, P2 – параметры, полученные при выборочных исследованиях; m1 и m2– их средние ошибки; t – критерий точности. Разность достоверна при t 2, что соответствует вероятности безошибочного прогноза, равной 95 % и более (P≥ 95 %).
Для большинства исследований, проводимых в медицине и здравоохранении, такая степень вероятности является вполне достаточной.
2.5. Оценка достоверности различия сравниваемых групп по критерию соответствия X 2 (хи-квадрат).
Определяя с помощью X 2 (хи-квадрат)соответствие эмпирического распределения теоретическому оценивают достоверность различия между выборочными совокупностями.
Критерий X 2 (в отличие от критерия t) применяется в тех случаях, когда нет необходимости знать величину того или иного параметра (среднюю или относительный показатель) и требуется оценить достоверность различия не только двух, но и большего числа групп.Х 2
Так, критерий X 2 (хи-квадрат) может быть использован для ответа на следующие вопросы: существенно ли отличаются друг от друга группы вакцинированных и невакцинированных по распределению их на больных и здоровых (т. е. эффективна ли вакцина); существенно ли отличаются группы населения с разным среднедушевым доходом по распределению их на больных и здоровых (т. е. влияет ли материальное обеспечение на уровень заболеваемости) и т. п.
Критерий X 2 (хи-квадрат) определяется по формуле:
X 2 = ,
Где (фи) – фактические (эмпирические) данные,
— «ожидаемые» (теоретические) данные, вычисленные на основании нулевой гипотезы (H0).
Определение критерия соответствия X 2 основано на расчете разницы между фактическими и ожидаемыми данными. Чем больше это разность (φ – φ1), тем с большей вероятностью можно утверждать, что существуют различия в распределении сравниваемых выборочных совокупностей и, наоборот, чем меньше разность (φ – φ1), тем меньше шансов на то, что сравниваемые выборочные совокупности различны между собой.
Статистическая значимость
Статистическая значимость часто применяется в маркетинге. С ее помощью определяют правильность выдвинутых предположений и вероятность их результатов. Она позволяет сделать выбор среди представленных теорий, что приводит к получению отличных результатов на практике.
Что такое статистическая значимость
Суть статистической значимости состоит в определении того, существует ли реальное основание в разнице между выбранными для исследования показателями, или это случайность? С данным понятием тесно связаны «нулевая» и «альтернативная» гипотезы.
Для лучшего понимания термина «статистическая значимость» необходимо понять, что такое «проверка гипотез». Эти два термина тесно взаимосвязаны.
Гипотеза иначе называется теорией. После окончания ее разработки требуется установить порядок по сбору достаточного количества доказательств этой теории и собрать их. Существует два типа гипотез: нулевая и альтернативная.
Нулевая гипотеза представляет собой теорию, которая гласит, что внесение коррективов ничего не поменяет, то есть сравниваемые объекты равнозначны в своих свойствах и нет смысла что-либо менять. Суть исследования заключается в опровержении гипотезы.
Альтернативная (исследовательская) гипотеза подразумевает сравнение, в результате которого один объект показывает себя эффективнее, чем другой.
Статистическая значимость как количественный показатель требует оценки. Оценка проходит поэтапно.
Постановка эксперимента
Все начинается с формулировки гипотезы. При этом должно быть выдвижение и нулевой, и альтернативной гипотезы. Придется сравнивать два набора данных для выяснения схожести и отличий. Эти утверждения требуют подтверждения с помощью экспериментальных данных.
Данный уровень представляет собой порог статистической значимости, который каждый устанавливает сам. Этот уровень носит название displaystyle \alpha >\alpha – уровня. Чаще всего, устанавливают значение в 0,05. Вероятность найти разницу составляет 5%. Чем выше уровень, тем достовернее результаты.
Когда нужна максимальная достоверность, стоит снизить значение с 0,05 до 0,01. Чаще всего, такие показатели применяют в производстве для выявления брака. Однако для большинства экспериментов достаточно значения в 0,05.
Решение об используемом критерии
После установки уровня требуется определить, какой критерий использовать: одно- или двусторонний. Здесь стоит опираться на t-критерии Стьюдента. Они показывают, насколько нормально распределены данные. Графически они представлены в виде колоколообразной кривой. Большее количество результатов расположено в середине.
Критерий Стьюдента позволяет математически проверить расположены ли данные в установленных пределах или же выпадают из нормального распределения.
Двусторонний критерий нужен, когда нет уверенности в том, что показатели находятся выше или ниже установленной нормы распределения.
Когда есть точная уверенность, в каком направлении может наблюдаться выход за пределы нормы, нужно использовать односторонний критерий.
Определение объема выборки
Здесь потребуется статистическая мощность. Она представляет собой вероятность, что при выбранном объеме будет получен ожидаемый результат. Распространенный порог — 80%. Для анализа можно использовать специальные онлайн-калькуляторы. Это позволит определить оптимальный объем выборки.
Часто проводят пробное исследование, которое позволяет получить данные для анализа и установить объем выборки. Когда такой возможности нет, стоит поискать в тематической литературе усредненные значения.
Вычисление стандартного отклонения
Стандартное отклонение показывает величину разброса данных. Оно позволяет сделать выбор о близости или отдаленности данных. Их вычисляют по следующей формуле: s = √∑((xi – µ)2/(N – 1)).
s — стандартное отклонение;
∑ указывает на необходимость суммировать полученные данные по выборке;
xi соответствует значению i, то есть отдельному полученному результату;
µ — это среднее значение для данной группы;
N — общее число данных в выборке.
Теперь потребуется отыскать среднее значение для каждой группы. Для этого суммируют средние значения каждой группы и делят на объем выборки.
Далее необходимо определить разницу (xi – µ). Для этого следует вычесть из найденной средней величины каждое полученное значение.
Теперь каждую полученную величину умножают на саму себя или возводят во вторую степень и суммируют величины. После этой операции не должно остаться отрицательных значений.
Следующий шаг — деление объема минус один. Делят полученную в предыдущем шаге сумму на величину, полученную от вычитания единицы. После этого извлекают квадратный корень из величины. Это и будет нужная величина стандартного отклонения.
Определение значимости
Для определения значимости потребуется взять две группы данных. Для последней вычисляют стандартное отклонение, после чего вычисляют дисперсию между обеими группами по формуле:
sd — дисперсия между двумя группами;
s1 — стандартное отклонение в группе 1, N1 — объем выборки в группе 1;
s2 — стандартное отклонение в группе 2, N2 — объем выборки в группе 2.
Необходимо определить t-оценку показателей для перевода полученных данных в стандартизированную форму, которая позволить провести сравнение с другими данными. Эта оценка делает возможным проверку t-критерия, а также выяснение величины отличия одной группы от другой. Для определения t-оценки применяют формулу: t = (µ1 – µ2)/sd:
µ1 — среднее значение для первой группы;
µ2 — среднее значение для второй группы;
sd — дисперсия между двумя выборками.
Совет: первым используют большее среднее значение, чтобы итоговая величина не была отрицательной.
Далее требуется определить степень свободы выборки. Для этого вычисляют объем: суммируют объемы двух выборок и вычитают 2. Полученная величина станет окончательной. Ее оценивают по таблице значений критерия Стьюдента (t-критерия). Таблица представлена ниже.
Пользоваться представленной таблицей просто: находите строку в соответствии с полученной степенью свободы и определяете соответствующее t-оценке Р-значение.
Например, при степени свободы 8 и t-оценке 2,61 Р-значение для одностороннего критерия попадает между 0,01 и 0,025. При выбранном показателе в 0,05 эти данные попадают в категорию «статистически значимые». Это помогает сделать выбор в пользу альтернативной гипотезы и отказаться от нулевой.
Заключение
Определение статистической значимости помогает решать маркетинговые задачи и минимизировать риски. Такие расчеты часто проводятся при A/B тестированиях и помогают узнать, как будет вести себя клиент в будущем, окупится ли товар и т.д.