Выявление промахов
В ряду нескольких параллельных определений иногда обнаруживается результат эксперимента, резко отличающийся о т других результатов и от среднего арифметического всей серии. В этих случаях перед обработкой полученных данных с помощью методов математической статистики необходимо установить, не является ли такой результат грубой погрешностью (промахом) и не следует ли исключить его из выборки. Выбор критерия для исключения сомнительного результата имеет свои трудности. Универсального правила, которым можно было бы при этом руководствоваться, к сожалению, не существует.
Размах вариации – это показатель, представляющий собой разность между максимальной и минимальной вариантами совокупности, т.е. R= xmax– xmin.
Q-тест.
В обрабатываемой серии данных должны отсутствовать промахи. Поэтому прежде, чем проводить любую обработку данных (начиная с вычисления среднего), следует выяснить, содержит ли она промахи, и если да, то исключить их из рассмотрения. Для выявления промахов служит еще один статистический тест, называемый Q -тестом или тестом Диксона.
Алгоритм Q -теста состоит в следующем. Серию данных упорядочивают по возрастанию: x1 ≤ x2 ≤ ... ≤ xn-1 ≤ xn. В качестве возможного промаха рассматривают одно из крайних значений x1 или xn - то, которое дальше отстоит от соседнего значения, т.е. для которого больше разность x2 - x1 либо, соответственно, xn - xn-1. Обозначим эту разность как W1. Размах всей серии, т.е. разность между максимальным и минимальным значением xn - x1, обозначим W0. Тестовой статистикой является отношение
Эта величина заключена в пределах от 0 до 1. Чем дальше отстоит "подозрительное" значение от основной массы данных, тем выше вероятность того, что это промах - и тем больше, в свою очередь, величина ξ. Критической величиной служит табличное значение Q -коэффициента Q(P,n), зависящее от доверительной вероятности и общего числа данных в серии. Если тестовая статистика превышает критическую величину (ξ>Q), соответствующее значение считают промахом и из серии данных исключают. После этого следует проверить на наличие промахов оставшиеся данные (с другим значением Q), поскольку промах в серии может быть не один. При применении Q -теста вместо стандартной доверительной вероятности, равной 0.95, обычно используют значение P=0.90. Наиболее достоверные результаты получаются при n=5-7. Для серий большего или меньшего размера Q-тест недостаточно надежен.
Тест Граббса.
Наиболее распространенным (и официально закрепленным во многих нормативных документах) тестом выявления промахов является тест Граббса. Он существует в нескольких вариантах, самый простой из которых состоит в следующем. Кандидатом в промахи считается одно из крайних значений серии, максимальное xmax или минимальное xmin, - то, которое дальше отстоит от среднего x̄, т.е. то, для которого больше разность xmax - x̄ или x̄ - xmin. Тестовой статистикой служит величина отношения этой разности к стандартному отклонению серии
Нормальное распределение.
Функция нормального распределения.
Нормальное распределение, распределение Гаусса – предельный закон распределения событий и явлений, являющихся результатом действия множества детерминированных факторов (физических причин, случайно сочетающихся), каждый из которых по интенсивности не выделяется на фоне других.
Нормальное распределение (normal distribution) – играет важную роль в анализе данных. Иногда вместо термина нормальное распределение употребляют термин гауссовское распределение в честь К. Гаусса (более старые термины, практически не употребляемые в настоящее время: закон Гаусса, Гаусса-Лапласа распределение). В большинстве случаев закон распределения результатов химического анализа можно удовлетворительно аппроксимировать так называемой функцией нормального (или гауссова) распределения
Параметр μ этой функции характеризует положение максимума кривой, т.е. собственно значение результата анализа, а параметр σ - ширину "колокола", т.е. воспроизводимость результатов. Так σ – это генеральное стандартное отклонение вероятностной переменной. Можно показать, что среднее x̄ является приближенным значением μ, а стандартное отклонение s(x) - приближенным значением σ. Естественно, эти приближения тем точнее, чем больше объем экспериментальных данных, из которых они рассчитаны, т.е. чем больше число параллельных измерений n и, соответственно, число степеней свободы f.
Вид колоколообразной кривой,
симметричной относительно вертикальной линии, проходящей через μ, зависит от
величины дисперсии и, следовательно, от отклонения. Значение параметра σ
определяет степень «размытости» кривой. Чем больше стандартное отклонение
(σ1 > σ2 > σ3), тем более пологой становится линия.
Доверительный интервал.
Доверительный интервал - статистическая оценка параметра
исследуемого вероятностного распределения, имеющая вид интервала, границами
которого служат функции от результатов наблюдений и доверительной вероятности,
который с вероятностью Р
"накрывает" неизвестное значение параметра. Так как математическое
ожидание вычислить невозможно, его возможно только оценить, то при нахождении
оценки математического ожидания, следует указывать доверительный интервал с
соответствующей доверительной вероятностью. Доверительная
вероятность Р - вероятность
достоверности принимаемой гипотезы, характеристика надёжности, полученной по
выборке оценки того или иного параметра. Сопутствующим параметром доверительной
вероятности Р является уровень значимости - вероятность допущения ошибок, т.е. .
Чем выше гарантия
надёжности оценки, тем больше величина интервала, в котором может находится
генеральный параметр. В исследованиях прикладного
характера доверительная вероятность обычно принимается Р=0,95.
Соответственно, уровень значимости в случае нормально распределённой
случайной величины это соответствует вероятности попадания случайной величины в
интервал
(правило двух сигма). По аналогии с вероятностью 0,997 –
правило
трех сигма можно записать
. Правилу одного сигма
соответствует доверительная вероятность 0,683.
Интервал соответствующий правилу одного сигма ещё называют приблизительным
интервалом, в котором с той или иной вероятностью (но не выше 0,683) может находиться
математическое ожидание.
Комментарии
Отправить комментарий