К основному контенту

[Лекция][№5][2020.10.02]

Выявление промахов

В ряду нескольких параллельных определений иногда обнаруживается результат эксперимента, резко отличающийся о т других результатов и от среднего арифметического всей серии. В этих случаях перед обработкой полученных данных с помощью методов математической статистики необходимо установить, не является ли такой результат грубой погрешностью (промахом) и не следует ли исключить его из выборки. Выбор критерия для исключения сомнительного результата имеет свои трудности. Универсального правила, которым можно было бы при этом руководствоваться, к сожалению, не существует.

Размах вариации – это показатель, представляющий собой разность между максимальной и минимальной вариантами совокупности, т.е. R= xmaxxmin.

 Q-тест.

В обрабатываемой серии данных должны отсутствовать промахи.  Поэтому прежде, чем проводить любую обработку данных (начиная с вычисления среднего), следует выяснить, содержит ли она промахи, и если да, то исключить их из рассмотрения. Для выявления промахов служит еще один статистический тест, называемый Q -тестом или тестом Диксона.

Алгоритм Q -теста состоит в следующем. Серию данных упорядочивают по возрастанию: x1 ≤ x2 ≤ ... ≤ xn-1 ≤ xn. В качестве возможного промаха рассматривают одно из крайних значений x1 или xn - то, которое дальше отстоит от соседнего значения, т.е. для которого больше разность x2 - x1 либо, соответственно, xn - xn-1. Обозначим эту разность как W1. Размах всей серии, т.е. разность между максимальным и минимальным значением xn - x1, обозначим W0. Тестовой статистикой является отношение

 

 

Эта величина заключена в пределах от 0 до 1. Чем дальше отстоит "подозрительное" значение от основной массы данных, тем выше вероятность того, что это промах - и тем больше, в свою очередь, величина ξ. Критической величиной служит табличное значение Q -коэффициента Q(P,n), зависящее от доверительной вероятности и общего числа данных в серии. Если тестовая статистика превышает критическую величину (ξ>Q), соответствующее значение считают промахом и из серии данных исключают. После этого следует проверить на наличие промахов оставшиеся данные (с другим значением Q), поскольку промах в серии может быть не один. При применении Q -теста вместо стандартной доверительной вероятности, равной 0.95, обычно используют значение P=0.90. Наиболее достоверные результаты получаются при n=5-7. Для серий большего или меньшего размера Q-тест недостаточно надежен.

 Тест Граббса.

Наиболее распространенным (и официально закрепленным во многих нормативных документах) тестом выявления промахов является тест Граббса. Он существует в нескольких вариантах, самый простой из которых состоит в следующем. Кандидатом в промахи считается одно из крайних значений серии, максимальное xmax или минимальное xmin, - то, которое дальше отстоит от среднего x̄, т.е. то, для которого больше разность xmax - x̄ или x̄ - xmin. Тестовой статистикой служит величина отношения этой разности к стандартному отклонению серии

 

 Нормальное распределение.

 

Функция нормального распределения.

Нормальное распределение, распределение Гаусса – предельный закон распределения событий и явлений, являющихся результатом действия множества детерминированных факторов (физических причин, случайно сочетающихся), каждый из которых по интенсивности не выделяется на фоне других.

Нормальное распределение (normal distribution) – играет важную роль в анализе данных. Иногда вместо термина нормальное распределение употребляют термин гауссовское распределение в честь К. Гаусса (более старые термины, практически не употребляемые в настоящее время: закон Гаусса, Гаусса-Лапласа распределение). В большинстве случаев закон распределения результатов химического анализа можно удовлетворительно аппроксимировать так называемой функцией нормального (или гауссова) распределения

 

 Параметр μ этой функции характеризует положение максимума кривой, т.е. собственно значение результата анализа, а параметр σ - ширину "колокола", т.е. воспроизводимость результатов. Так σ – это генеральное стандартное отклонение вероятностной переменной. Можно показать, что среднее x̄ является приближенным значением μ, а стандартное отклонение s(x) - приближенным значением σ. Естественно, эти приближения тем точнее, чем больше объем экспериментальных данных, из которых они рассчитаны, т.е. чем больше число параллельных измерений n и, соответственно, число степеней свободы f.

Вид колоколообразной кривой, симметричной относительно вертикальной линии, проходящей через μ, зависит от величины дисперсии и, следовательно, от отклонения. Значение параметра σ определяет степень «размытости» кривой. Чем больше стандартное отклонение
(σ1 > σ2 > σ3), тем более пологой становится линия.

 

 

Доверительный интервал.

Доверительный интервал - статистическая оценка параметра исследуемого вероятностного распределения, имеющая вид интервала, границами которого служат функции от результатов наблюдений и доверительной вероятности, который с вероятностью Р "накрывает" неизвестное значение параметра. Так как математическое ожидание вычислить невозможно, его возможно только оценить, то при нахождении оценки математического ожидания, следует указывать доверительный интервал с соответствующей доверительной вероятностью. Доверительная вероятность Р - вероятность достоверности принимаемой гипотезы, характеристика надёжности, полученной по выборке оценки того или иного параметра. Сопутствующим параметром доверительной вероятности Р является уровень значимости  - вероятность допущения ошибок, т.е. .

Чем выше гарантия надёжности оценки, тем больше величина интервала, в котором может находится генеральный параметр. В исследованиях прикладного характера доверительная вероятность обычно принимается Р=0,95. Соответственно, уровень значимости в случае нормально распределённой случайной величины это соответствует вероятности попадания случайной величины в интервал (правило двух сигма). По аналогии с вероятностью 0,997 – правило трех сигма можно записать . Правилу одного сигма соответствует доверительная вероятность 0,683. Интервал соответствующий правилу одного сигма ещё называют приблизительным интервалом, в котором с той или иной вероятностью (но не выше 0,683) может находиться математическое ожидание.

 

 

 

 

 

 

Комментарии

Популярные сообщения из этого блога

[Решение задач][На обнаружение промахов Q-тестом]

 При спектрофотометрическом анализе раствора органического красителя получены значения оптической плотности, равные 0.376, 0.398, 0.371, 0.366, 0.372 и 0.379. Содержит ли эта серия промахи? Решение . Располагаем полученные результаты в порядке возрастания: 0.366 0.371 0.372 0.376 0.379 0.398 Формулы для расчета или   В случае если Q > Qкрит(P, n) тестируемое значение является промахом. Находим тестовую статистику для значения 0,398  Количество значений (n) равно 6, доверительная вероятность для данного теста равна 0,90. Из таблицы значений Q-критерия находим критическое значение равное 0,56. Сравниваем тестовую статистику с критическим значением. 0,59 > 0,56 => Значение 0,398 является промахом. Находим тестовую статистику для значения 0,366  Количество значений (n) уже равно 5, доверительная вероятность равна 0,90.  Из таблицы значений Q-критерия находим критическое значение равное 0,64. Сравниваем тестовую статистику с критическим...

[Решение задач][На модифицированный тест Стьюдента]

[Лекция][№16][2020.12.11]