чему нельзя дать точное количественное определение
Из какого теста
Для чего сдают тесты на антитела?
Тесты выполняются на наличие антител (иммуноглобулинов) IgA, IgM и IgG.
— Антитела IgG начинают вырабатываться примерно через 10-14 дней после появления симптомов. Их появление указывает на то, что у человека сформировался долговременный иммунитет. То есть речь идет либо о поздней фазе заболевания, когда больной уже выздоравливает, либо о том, что человек переболел COVID-19 раньше.
Какой тест можно сделать перед прививкой?
Сейчас тесты на антитела IgG чаще всего выполняют люди, которые собираются пройти вакцинацию, чтобы убедиться, что они не перенесли COVID-19 раньше бессимптомно и у них нет иммунитета, полученного естественным путем. Если тест показывает положительный титр антител IgG, вакцинацию можно отложить.
А если человек хочет проверить уровень антител после прививки? Сейчас многие сравнивают свои показатели.
Надо понимать, что тесты, которые используют в лабораториях, разные и шкалы у них используются тоже разные. Поэтому если пытаться сравнивать результаты (хотя большого смысла в этом нет), то надо по меньшей мере быть уверенным, что вы выполняли тестирование одним и тем же тестом.
Что такое «коэффициент позитивности»?
При этом еще раз отмечу, что у других производителей тестов шкала может быть другой и показатели, соответственно, тоже. При этом, получая результат теста в лаборатории, вы всегда можете увидеть на бланке референсные значения и сравнить результат с ними.
Каким тестом можно проверить поствакцинальный иммунитет?
Такой тест называется «Количественное определение антител к RBD домену S1 белка коронавируса (антитела IgG)» (выполняется методом хемилюминесцентного иммуноанализа сыворотки и плазмы крови, Abbot).
Это количественный анализ на IgG-антитела. Он поможет оценить иммунный ответ и в случае заражения (или перенесенного COVID-19), и для контроля поствакцинального иммунитета.
Когда делать:
— на текущую или перенесенную инфекцию не ранее чем через три недели после появления симптомов или получения положительного результата ПЦР-теста;
— для оценки поствакцинального иммунитета через три недели после второй дозы вакцины.
О чем говорят результаты:
Для чего нужно сдавать ПЦР-тест на COVID-19?
Этот тест сдается, чтобы проверить, болен ли человек или, возможно, является носителем вируса (даже если у него нет никаких симптомов нездоровья), выделяет ли он в настоящий момент вирус из верхних дыхательных путей, то есть является источником инфекции для окружающих.
Это единственный и ставший уже стандартным тест для туристов: при въезде практически все страны требуют предъявить справку о тесте, сданном перед отъездом. После возвращения из поездки тест придется сдать еще дважды и результат загрузить на портал госуслуг.
Кроме того, можно сдать ПЦР-тест, чтобы убедиться, что вы здоровы, то есть исключить бессимптомное течение заболевания. Это может понадобиться, если, например, вам предстоит встреча с пожилыми родственниками и вы не хотите рисковать их здоровьем. Кроме того, с помощью такого тестирования можно проверить, не заразились ли вы коронавирусом, если вы точно знаете, что контактировали с заболевшим.
Как правильно сдавать тесты?
Для теста ПЦР: берется мазок биоматериала со слизистой носоглотки. Анализ сдается натощак либо через три часа (или позже) после еды. За три часа до взятия мазка нельзя чистить зубы, полоскать рот, пить, жевать жевательную резинку, применять антисептические таблетки, полоскания и спреи.
Для теста на антитела: берется кровь из вены. Сдавать кровь нужно натощак утром или днем не менее чем через четыре часа после последнего приема пищи.
Количественный анализ данных
Оглавление
Количественный анализ данных – одна из тех вещей, которые часто вселяют страх в студентов, когда они достигают исследовательской стадии своей степени. Это совершенно понятно: количественный анализ данных – сложная тема, полная устрашающих терминов, таких как медианы, моды, корреляция и ковариация. Внезапно нам всем стало жаль, что мы не уделяли больше внимания в классе математики.
Хорошая новость заключается в том, что, хотя количественный анализ данных – гигантская тема, получить рабочее понимание основ не так сложно даже для тех из нас, кто избегает чисел и математики любой ценой. В этом посте мы собираемся разбить количественный анализ на простые небольшие фрагменты, чтобы вы могли освоиться с основными концепциями и с уверенностью приступить к исследованию.
Что такое количественный анализ данных?
Несмотря на громоздкость, количественный анализ данных просто означает анализ данных, основанных на числах (в отличие от словесных), или данных, которые можно легко «преобразовать» в числа без потери смысла. Например, такие категориальные переменные, как пол, этническая принадлежность или родной язык, можно «преобразовать» в числа без потери значения.
Для чего это использовалось?
Как это работает?
Нужно ли мне стать статистиком?
Существует множество различных статистических методов, и, по общему признанию, все может быть довольно сложно. Не волнуйтесь – вам не нужно быть опытным статистиком, чтобы проводить качественные исследования. Вам просто нужно твердое понимание основ, и вы сможете узнать о методах анализа, которые будут иметь отношение к вашему конкретному исследованию, по мере вашего продвижения. Мы рассмотрим эти основы здесь.
Каковы основные методы и приемы анализа?
Но сначала – быстрый обход:
Населения является целая группа людей (или животных или компании или любой другой), что вы заинтересованы в исследовании. Например, если вы заинтересованы в исследовании владельцев Tesla в США, то все население будет состоять из владельцев Tesla в США.
Другими словами, совокупность – это полный шоколадный торт, а кусочек этого торта – образец.
Хорошо, теперь давайте вернемся к этим двум ветвям статистики – описательной и логической :
Описательная статистика
Описательная статистика играет простую, но критически важную роль в вашем исследовании – описывает набор данных (кто бы мог подумать?). Другими словами, они помогают вам понять детали вашей выборки (небольшой фрагмент совокупности). В отличие от логической статистики (к которой мы скоро вернемся), описательная статистика не ставит своей целью делать выводы обо всей совокупности – ее просто интересуют детали вашей конкретной выборки.
Когда вы пишете главу, посвященную анализу, описательная статистика – это первый набор статистических данных, который вы охватите, прежде чем переходить к статистическим выводам. Однако, в зависимости от целей и вопросов вашего исследования, они могут быть единственным типом статистики, которую вы используете. В любом случае они необходимы.
Техники / методы
Почему важна описательная статистика
Хотя все это довольно простые статистические данные для расчета (вы можете рассчитать их все в Excel с помощью нескольких щелчков мыши), они невероятно важны по нескольким причинам:
Cтатистика
Конечно, когда вы работаете со статистическими выводами, состав вашей выборки действительно важен. Другими словами, если ваша выборка не точно представляет исследуемую вами популяцию, тогда ваши выводы не обязательно будут очень полезными – то есть вы не сможете сделать много выводов.
Качественный и количественный анализ в лабораторной практике
Содержание
Качественный анализ вещества
Качественный и количественный анализ являются предметом аналитической химии. Определение состава веществ включает выявление природы компонентов, из которых состоит исследуемое вещество, и установление количественных соотношений этих компонентов.
Сначала устанавливают качественный состав исследуемого объекта, т.е. решают вопрос, из чего он состоит, а затем приступают к определению количественного состава, т.е. узнают, в каких количественных соотношениях обнаруженные составные части находятся в объекте исследования.
Качественный анализ вещества можно проводить химическими, физическими, физико-химическими методами.
Химические методы анализа основаны на применении характерных химических реакций для установления состава анализируемого вещества.
Химический анализ вещества проводят двумя способами: «сухим путем» или «мокрым путем».
Анализ сухим путем – это химические реакции, происходящие с веществами при накаливании, сплавлении и окрашивании пламени.
Анализ мокрым способом – это химические реакции, протекающие в растворах электролитов. Анализируемое вещество предварительно растворяют в воде или других растворителях. В зависимости от массы или объема взятого для анализа вещества, от применяемой техники различают макро-, полумикро- и микрометоды.
Макрометод. Для проведения анализа берут 1—2 мл раствора, содержащего не менее 0,1 г вещества, и добавляют не менее 1 мл раствора реактива. Реакции проводят в пробирке, осадок отделяют фильтрованием. Осадок на фильтре промывают от примесей.
Полумикрометод. Для анализа берут в 10—20 раз меньше вещества (до 0,01 г). Так как в этом методе работают с малыми количествами вещества, то пользуются микропробирками, часовыми или предметными стеклами. Для отделения осадка от раствора применяют центрифугирование.
Микрометод. При выполнении анализа данным методом берут одну-две капли раствора, а сухого вещества – в пределах 0,001 г. Характерные реакции проводят на часовом стекле или фарфоровой пластинке.
При проведении анализа пользуются следующими операциями: нагревание и выпаривание, осаждение, центрифугирование, проверка полноты осаждения, отделение раствора (центрифуга) от осадка, промывание и растворение осадка.
Для определения количественного состава вещества или продукта используются реакции нейтрализации, осаждения, окисления и восстановления, комплексообразования. Количество вещества можно определить по его массе или объему раствора, затраченного на взаимодействие с ним, а также по показателю преломления раствора, его электрической проводимости или интенсивности окраски и т. п.
По количеству взятого для исследования вещества аналитические методы количественного анализа классифицируются следующим образом:
В товароведной практике часто пользуются гравиметрическим (весовым) и титриметрическим (объемным) методами.
Классификация методов количественного анализа
Количественный анализ – совокупность химических, физико-химических и физических методов определения количественного соотношения компонентов, входящих в состав анализируемого вещества.
Количественный анализ позволяет установить:
1. Количественные соотношения составных частей неизвестного индивидуального соединения, т.е. установить его формулу.
2. Содержание или концентрацию определяемого вещества в исследуемом образце.
3. Содержание всех или некоторых главных компонентов анализируемой смеси.
4. Содержание определенных форм того или иного элемента.
5. Содержание не главных компонентов смеси.
6. Содержание микропримесей в особо чистых веществах.
7. Содержание определенных радикалов, активных атомов, функциональных групп вещества.
8. Состав отдельных фаз смеси.
По количеству вещества, взятого для анализа, различают макро-, полумикро-, микро- и ультрамикрометоды количественного анализа.
В зависимости от объекта исследования различают неорганический и органический количественный анализ. Органический количественный анализ подразделяется на элементный, функциональный и молекулярный анализ.
Элементный анализ позволяет установить содержание элементов (ионов).
Функциональный анализ — содержание функциональных (реакционноспособных) атомов и групп в анализируемом объекте.
Молекулярный количественный анализ предусматривает анализ индивидуальных химических соединений, характеризующихся определенной молекулярной массой.
Важное значение имеет фазовый анализ – совокупность методов разделения и анализа отдельных структурных (фазовых) составляющих гетерогенных систем.
Методами количественного анализа проверяют правильность технологических процессов, решают многие вопросы исследований прикладного характера: оценивают содержание ценных веществ в рудах, биологических объектах, присутствие токсических веществ в продуктах питания, окружающей среде и т. д.
Важная характеристика методов количественного анализа – точность, то есть, значение относительной ошибки определения. Точность и чувствительность в количественном анализе выражают в процентах.
Точность химических методов количественного анализа находится обычно в пределах 0,005—0,1%; ошибки определения инструментальными методами составляют 5—10%, а иногда и значительно больше.
Чтобы результаты количественного анализа были верны, необходимо соблюдать ряд условий:
Процедура анализа состоит из трех основных этапов:
Каждый из этапов должен выполняться с помощью наиболее подходящего метода, который должен быть выбран в соответствии с техническими регламентами с одной стороны по аналитическим соображениям, а с другой стороны – по соображениям экономичности. Разнообразие матриц и ширина спектра исследуемых веществ привели к появлению множества методов.
Измерительные методы базируются на информации, получаемой с использованием средств измерений и контроля. В основе всех методов анализа лежит измерение либо химического, либо физического свойства вещества, называемого аналитическим сигналом, зависящего от природы вещества и его содержания в пробе.
В зависимости от принципа получения аналитического сигнала все методы аналитической химии делятся на 3 основные группы:
1. Химические методы анализа основаны на использовании химических реакций. При этом проводят реакцию, а затем наблюдают аналитический эффект или измеряют аналитический сигнал. В качестве аналитического сигнала в химических методах выступает либо масса вещества (гравиметрический метод анализа), либо объем реактива – титранта (титриметрические методы). Химические методы применяют для определения состава и количества входящих в продукцию веществ. Они подразделяются на количественные и качественные – это методы аналитической, органической, физической и биологической химии.
2. Биологические методы анализа основаны на измерении интенсивности развития микроорганизмов в зависимости от количества анализируемого вещества. Биологические методы используют для определения пищевой и биологической ценности продукции. Их подразделяют на физиологические и микробиологические. Физиологические применяют для установления степени усвоения и переваривания питательных веществ, безвредности, биологической ценности. Микробиологические методы применяют для определения степени обсемененности продукции различными микроорганизмами.
3. Физические (физико-химические) методы анализа основаны на измерении физических свойств веществ, зависящих от химического состава. Физические методы – методы, при реализации которых регистрируется аналитический сигнал каких-либо физических свойств (ядерные, спектральные, оптические) без проведения химической реакции. При этом наблюдение аналитического эффекта или измерение аналитического сигнала выполняют непосредственно с анализируемым веществом. Химические реакции либо совсем не проводят, либо они играют вспомогательную роль. Основной упор делают на измерение аналитического сигнала. Физические методы применяют для определения физических свойств – коэффициента рефракции, вязкости, липкости и др. К таким методам относятся микроскопия, поляриметрия, колориметрия, рефрактометрия, спектроскопия, реология, люминесцентный анализ и другие. Также, с помощью физических методов определяют относительную плотность и удельную массу, температуру плавления и затвердевания, концентрацию водородных ионов, показатель преломления света, механическую устойчивость и прочность, эластичность и пористость, наличие примесей и другие показатели. Физико-химические методы анализа, как и химические методы, основаны на проведении той или иной химической реакции и измерении физических свойств веществ, которые появляются или изменяются в результате химических реакций. В физических методах химические реакции отсутствуют или имеют второстепенное значение, хотя в спектральном анализе интенсивность линий всегда существенно зависит от химических реакций в угольном электроде или в газовом пламени. Поэтому иногда физические методы включают в группу физико-химических методов, так как достаточно строгого однозначного различия между физическими и физико-химическими методами нет, и выделение физических методов в отдельную группу не имеет принципиального значения.
Физико-химические методы анализа основаны на регистрации аналитического сигнала какого-то физического свойства (потенциала, тока, количества электричества, интенсивности излучения света или его поглощения и т. д.) при проведении химической реакции. При этом сначала проводят реакцию, а затем измеряют физическое свойство продукта реакции или используют измерение физического свойства в ходе реакции для установления конечной точки титрования.
Химические методы анализа иначе называют классическими, а физические и физико-химические методы анализа – инструментальными, т. к. проведение анализа с привлечением этих методов невозможно без использования измерительной аппаратуры.
Химические методы количественного анализа
Химические методы анализа предусматривают химическое взаимодействие веществ. Здесь важны результаты химической реакции между веществом и реагентом. Химические методы анализа широко применяются для проведения качественного анализа, так как по характеру осадка, изменению окраски раствора, образованию и выделению определенного газа можно установить, какое вещество имеется в растворе. При количественном химическом анализе производят взвешивание образовавшегося осадка, добавляют раствор реактива до изменения цвета раствора или другой физической характеристики вещества и по количеству использованного на анализ реактива определяют количество анализируемого вещества.
К классическим химическим методам количественного анализа относятся:
1. Гравиметрический анализ, основанный на определении измерения массы анализируемого вещества или его составных частей, выделяемых в химически чистом состоянии или в виде соответствующих соединений.
Различают следующие виды объёмного метода анализа:
1) титриметрический количественный анализ – измерение объёма израсходованного на реакцию реактива точно известной концентрации;
2) газовый объёмный количественный анализ – анализ газовых смесей, основанный на избирательном поглощении из анализируемой газовой смеси определяемого компонента подходящими поглотителями;
3) седиментационный объёмный количественный анализ – основан на расслоении дисперсных систем под действием силы тяжести, сопровождающемся отделением дисперсной фазы в виде осадка и последующем измерении объёма осадка в градуированной центрифужной пробирке. Основными достоинствами химических методов анализа являются простота выполнения и достаточно высокая точность (0,10…0,01%).
К недостаткам химических методов анализа относятся большая продолжительность и высокий предел обнаружения.
1. Постройте график (один) временных рядов для ежедневных значений индекса, его ежедневных процентных изменений.
Итак, для построения графика временных рядов используем надстройку Stat Pro. Из перечня слуг выбираем вкладку Charts и далее нажимаем Time series plots. В качестве переменной оси Х выбираем время (годы, месяцы, дни). Так как наша задача заключается в прогнозировании, нам нужно определить, наблюдается ли какая-нибудь устойчивая зависимость от времени заданной величины (в данном случае индекс Доу Джонса) и наблюдается ли компонента.
Теперь построим упомянутую выше зависимость. Воспользовавшись надстройкой, наблюдаем следующий линейный график:
Насколько заметно, мы имеем ярко выраженный возрастающий тренд.
2. Вычислите основные статистические характеристики переменных.
Теперь, для вычисления статистических характеристик переменных можем воспользоваться стандартными инструментами Excel такими как: Мода, Медиана (для этого достаточно: Вставка – Функция – Статистические – Медиана), МАКС, МИН, СЧЕТЕСЛИ и др. Далее можно построить график точечных частот (Вставка – Диаграмма – Стандартные – Точечная). Но для максимизации качества и количества полезных дел за определенный отрезок времени, предлагаю опять же воспользоваться надстройкой Stat Pro, которая за короткий промежуток автоматически подсчитает и выведет необходимую статистику.
Итак, переходим к данным в файле Облигации (Excel). Для расчета выбираем Stat Pro, вкладка Summary Stats и далее One-Variable Summary Stats. Выделяем заголовки (без выделения надстройка работать не будет), выбираем массу данных и получаем следующие показатели:
Summary measures for selected variables
10-летние облигации DJIA
1 Count 60,000 59,000
2 Sum 230,210 483657,210
3 Mean 3,837 8197,580
4 Median 3,890 8257,610
5 Standard deviation 0,139 311,364
6 Minimum 3,540 7524,060
7 Maximum 4,090 8726,730
8 Range 0,550 1202,670
9 First quartile 3,708 7912,230
10 Third quartile 3,940 8462,930
На приведенной выше таблице наблюдаем: счет, среднее значение, медиану, стандартное отклонение, минимум, максимум, первый и третий квартили, диапазон.
Аналогичную процедуру можно проделать с использованием анализа данных (выбираем инструмент «описательная статистика»). На выходе получаем следующие данные:
Задание 2.
Для анализа финансовых расчетов с филиалами торговой компании за последние 4 месяца (файл Торговая компания.XLS) собрана информация об операциях поставки товаров, а именно, Филиал№, месяц, категория товара, сумма поставки, сумма поступившей оплаты. Необходимо исследовать данные с помощью инструментария Excel, а также:
А) создайте сводную таблицу для вычисления количества операций по каждому филиалу и по каждому месяцу (по всем категориям)
Б) создайте сводную таблицу для вычисления общих сумм поставок по каждому филиалу за каждый месяц. Используя полученные данные, постройте соответствующие временные ряды для каждого филиала.
В) постройте гистограмму для поступивших оплат для трех категорий поставки.
Ответы:
А) создайте сводную таблицу для вычисления количества операций по каждому филиалу и по каждому месяцу (по всем категориям)
Итак, для создания сводной таблицы выбираем в Excel инструмент «сводные таблицы» и при помощи «параметры» и «конструктор» начинаем работу: выбираем дизайн таблицы и пр.
Далее в «выберите поля для добавления в отчет» переносим «Филиалы» в «Названия строк», «Месяц» в «Названия столбцов», а «Количество товара» в «Значения». Получаем следующую сводную таблицу:
Количество по полю
Категория товара Названия столбцов
Названия строк Март Апрель Май Июнь Общий итог
Филиал_1 5 4 2 4 15
Филиал_2 9 4 6 9 28
Филиал_3 4 4 4 2 14
Филиал_4 7 3 5 7 22
Филиал_5 3 5 3 3 14
Филиал_6 2 5 3 2 12
Филиал_7 5 4 2 11
Общий итог 35 29 25 27 116
Таким образом, нам удалось вычислить количества операций по каждому филиалу и по каждому месяцу (по всем категориям).
Сумма по полю Сумма (т.р.) Названия столбцов
Названия строк Март Апрель Май Июнь Общий итог
Филиал_1 1550 764 232 1403 3949
Филиал_2 1474 1686 1291 3426 7877
Филиал_3 2449 1750 1037 941 6177
Филиал_4 2080 1048 1027 3189 7344
Филиал_5 253 1574 1255 693 3775
Филиал_6 1276 595 649 232 2752
Филиал_7 1651 2088 423 4162
Общий итог 10733 9505 5914 9884 36036
Таким образом, Excel наглядно изобразил общие суммы поставок по каждому филиалу за каждый месяц.
Теперь перейдем к построению соответствующих временных рядов для каждого филиала. Для этого воспользуемся надстройкой Stat Pro, «Charts» и далее «Time Series Plots». Получаем следующую таблицу временных рядов для каждого филиала:
Для построения таблицы были намеренно избраны сумма поставки и сумма поступившей оплаты дабы нагляднее рассмотреть и соотнести ряды для каждого филиала.
В) постройте гистограмму для поступивших оплат для трех категорий поставки.
Перейдем к построению гистограммы. Опять же можем воспользоваться надстройкой Stat Pro, «Charts» и далее не «Time Series Plots», вкладка «Histograms». Выбираем «Оплачено (т.р)», далее в numbers of categories ставим 3, и в Minimum value и category length подставляем интересующие нас значения. В данном случае я подставил числа: 1000 и 5000. На выходе получили следующую гистограмму и таблицу частот:
Frequency table for Оплачено (т.р.)
Upper limit Category Frequency
1000 6000 23
Таким образом, мы построили гистограмму для поступивших оплат для трех категорий поставки.
Задание 3
Владелец ресторана европейской кухни заинтересовался особенностями заказов, принимаемых на выходные. Он стал записывать количество заказов на различные виды блюд. Предположим, что владельца ресторана интересует также, заказывают ли посетители десерт. Он решил записывать значения еще двух переменных: пол посетителя и заказывал ли он говядину. Результаты этих исследований приведены ниже.
Заказ десерта Мужской Женский Всего
Да 96 224 320
Нет 40 240 280
Всего 136 464 600
Заказ говядины
Да 71 116 187
Нет 65 348 413
Всего 136 464 600
Подготовьте модель (Excel: относительные, абсолютные ссылки) и вычислите:
1. Какова вероятность того, что первый же клиент закажет десерт?
2. Какова вероятность того, что первый клиент не закажет говядину?
3. Какова вероятность того, что первый клиент закажет десерт или говядину?
4. Какова вероятность того, что первый клиент окажется женщиной и не закажет десерт?
5. Какова вероятность того, что первый клиент закажет десерт и говядину?
6. Какова вероятность того, что первый клиент окажется женщиной и не закажет десерт?
7. Предположим, что первый клиент, у которого официант принял заказ, оказался женщиной. Какова вероятность того, что она не закажет десерт?
8. Предположим, первый же клиент заказал говядину. Какова вероятность, что он закажет и десерт?
9. Являются ли пол клиента и заказ десерта статистически независимыми?
10. Являются ли заказ десерта и заказ говядины статистически независимыми?
Итак, модель подготовлена следующим образом:
Заказ десерта Мужской Женский Всего
Да 96 224 320
Нет 40 240 280
Всего 136 464 600
Заказ говядины * * *
Да 71 116 187
Нет 65 348 413
Всего 137 464 600
Теперь перейдем к вычислениям:
Задача с первой по третью не нуждаются в иллюстрации.
Задание 4
В рабочей книге PIZZA.XLS содержатся данные о 36 порциях пиццы: стоимость в долларах, количество калорий и количество жира в граммах для трех категорий продуктов: сырной пиццы из пиццерии (тип 1), сырной пиццы из супермаркета (тип 2) и острой пиццы из супермаркета (тип 3).
Используйте инструмент Сводные таблицы и функции вычисления статистических характеристик.
Вычислите распределение частот и процентное распределение для стоимости, калорий и жирности.
Постройте кривую распределения (полигон накопленных процентов) для стоимости, калорий и жирности.
Изучите аналитически и графически взаимосвязь переменных.
Какие выводы можно сделать о стоимости, количестве калорий и жирности каждой из разновидностей пиццы?
1. Итак, начинаем вычисления с использования Сводных таблиц, функций вычисления статистических данных, а также надстройки Stat Pro. И для начала строим Сводные таблицы и исследуем распределения для стоимости, калорий и жирности. Для больших наборов данных следует создавать сводные таблицы, распределяя данные по группам (или категориям). Такой способ представления данных называется распределением частот. Распределение частот представляет собой сводную таблицу, в которой данные распределены по группам или категориям. Если данные сгруппированы в виде распределения частот, процесс их анализа и интерпретации становится более управляемым и осмысленным. При распределении частот следует внимательно выбирать интервал группирования, или размах групп, а также вычислять границы каждой группы, не допуская их перекрытия.
А. Для более наглядного рассмотрения предлагаю для начала рассмотреть распределение частот и процентное распределение для стоимости. Для этого используем инструмент «сводные таблицы». Выбираем массив данных, В «название строк» переносим «вид» и «название». В «значение» переносим» «цена». Получаем следующую таблицу для стоимости:
Сумма по полю Цена
Вид Название Итог
Chain 10,16
Cheese 16,97
Pepperoni DiGiorno Rising Crust Pizza Pepperoni 0,88
Freschetta Bakes & Rises Pepperoni Pizz 0,96
Healthy Choice Solos Pepperoni French Bread Pizza 1,62
Jeno’s Crisp’n Tasty Pizza Pepperoni 0,74
Red Baron Classic Pepperoni Pizza 0,89
Red Baron Deep Dish Singles 2 Pepperoni Pizzas 1,28
Stouffer’s French Bread Pizza 2 pepperoni 1,26
Tombstone Original Pepperoni Pizza 0,88
Tombstone Stuffed Crust Pepperoni Pizza 0,9
Tony’s Original Crust Pepperoni Pizza 0,87
Totino’s The Original Crisp Crust Party Pizza Pepperoni 0,64
Weight Watchers Smart Ones Bistro Selections Pepperoni Pizza 1,51
Pepperoni Итог 12,43
Общий итог 39,56
Для наглядного примера мной была раскрыта вкладка «Pepperoni». Точно также значения для названия отдельной пиццы можно посмотреть во вкладках «Chain» и «Cheese». Это удобно – можно наблюдать как общее значение категории\вида, так и отдельно взятой единицы продукции.
Теперь посмотрим на процентное распределение стоимости по трем категориям товара. Для этого изменяем значение, находим дополнительные вычисления и нажимаем на % от суммы по столбцу.
Вид Название Итог
Chain 25,68%
Cheese Amy’s Organic Crust & Tomatoes Cheese Pizza 4,85%
Baboli Original Pizza Crust made with Bobali Sauce and mozzarella cheese 2,25%
Celeste Pizza for One Cheese Pizza 2,96%
DiGiorno Rising Crust Pizza Four Cheese 2,38%
Freschetta Bakes & Rises 4-Cheese Pizza 2,48%
Freschetta Bakes & Rises Sauce Stuffed Crust 4-Cheese Pizza 3,11%
Jack’s Original Cheese Pizza 2,33%
Kroger Self Rising Crust Four Cheese Pizza 2,02%
McCain Ellio’s Chesse Pizza 1,37%
Michelina’s Zap ’ems That’za Pizza! Cheese 3,24%
Red Baron Classic 4 Cheese Pizza 2,30%
Reggio’s Chicago Style Cheese Pizza 2,58%
Safeway Select Verdi Quattro Formaggio Self Rising Crust Pizza 2,12%
Tombstone Stuffed Crust Cheese Pizza 2,43%
TombstoneOriginal Extra Cheese Pizza 2,38%
Tony’s Super Rise Crust Four-Cheese Pizza 2,43%
Totino’s The Original Crisp Crust Party Pizza Cheese 1,69%
CheeseИтог 42,90%
Pepperoni 31,42%
ОбщийИтог 100,00%
Получили следующую таблицу процентного распределения. В дальнейшем (в сводных таблицах) мной будут (для удобства) показаны только процентные распределения.
Б. Теперь строим аналогичную таблицу для распределения калорий (вместо «ценна» в «значение» подставляем «калории» и переводим в процентное распределение).
Вид Название Итог
Chain Domino’s Hand Tossed Pepperoni Pizza 2,83%
Donimo’s Deep Dish Pepperoni Pizza 3,09%
Little Caesars Round Pepperoni Pizza 2,53%
Papa John’s Original Crust Pepperoni Pizza (28 oz) 3,00%
Papa John’s Original Crust Pepperoni Pizza (37 oz) 2,53%
Pizza Hut Pan Pizza Pepperoni 2,98%
Pizza Hut Thin & Crispy Pepperoni Pizza 2,76%
Chain Итог 19,73%
Cheese 45,53%
Pepperoni 34,73%
Общий итог 100,00%
В. Аналогично поступаем для построения сводной таблицы касаемо жиров.
Вид Название Итог
Chain 20,82%
Cheese 41,10%
Pepperoni 38,08%
Общий итог 100,00%
Здесь приведены общие значения по трем категориям продукта. Также можем посмотреть каждое наименование пиццы в отдельности.
В. Также можно построить одну таблицу для процентного распределения для стоимости, калорий и жирности. Выглядеть она будет так:
2. Теперь перейдем к построению гистограмм, которая внешне похожа на график нормального распределения и при увеличении количества измерений приближается к графику нормального распределения (распределения Гаусса).
Итак, переходим во вкладку «Анализ данных» и выбираем «Гистограмма». Выбираем входной интервал – в данном случае выделяем колонку «Цена». Здесь же предлагается выбрать интервал карманов. Мы можем оставить интервал пустым – программа вычислит за нас. Далее ставим галочку «интервальный процент» и «вывод графика». Жмем Ок.
Получили гистограмму для стоимости. На вертикальной оси изображена абсолютная чистота. Ее можно изменить на относительную. Для этого под появившейся таблицей со столбцами «Карман» и «Частота» под столбцом «Частота» вводим формулу «=СУММ» и складываем абсолютные частоты. Далее добавляем рядом столбик «Относительная частота». Во всех ячейках нового столбца вводим формулу, которая будет рассчитывать относительную частоту: 100 множим на абсолютную частоту и делим на сумму, которую вычислили изначально («=СУММ» и складываем абсолютные частоты). Приводить наглядно не станем.
Аналогичные диаграммы приводим для калорий и жиров соответственно. К широте использования инструментария ставим галочку «Парето» для наблюдения отсортированной гистограммы:
Видим, что интегральный процент калорий и жиров возрастает – тренд возрастающий, вид гиперболы.
3. Теперь рассмотрим зависимость калорий от жира в целом во всех пиццах. Для этого используем надстройку Stat Pro, Charts, Scatterplots, вводим массив данных и получаем следующую зависимость:
Correlation = 0,936 – корреляция практически равна единице, что говорит о полной зависимости Жиров и калорий.
4. Теперь рассчитываем обобщающие характеристики переменных. Строим распределения по стоимости, калориям и жирности. Воспользуемся надстройкой Stat Pro\Summary stats\One-variable Summary stats. Далее выбираем все три значения и получаем следующие данные:
Summary measures for selected variables
Цена Калории Жир
Count 36,000 36,000 36,000
Mean 1,099 351,806 15,611
Median 0,960 354,000 14,500
Standard deviation 0,329 35,733 5,156
Minimum 0,540 280,000 4,000
Maximum 1,920 412,000 26,000
Range 1,380 132,000 22,000
First quartile 0,888 327,250 12,750
Third quartile 1,280 378,500 19,250
Из таблицы наблюдаем средние значения, стандартные отклонения, первый и третий квартили и тд.
Итог:
Итак, мы изучили аналитически и графически взаимосвязь переменных. Можно сказать, что количество калорий варьируется с учетом вида и процента жирности. Стоимость также варьируется в зависимости от вида. Также видно из графика, что калории и жиры имеют полную зависимость друг от друга, чего нельзя сказать о стоимости скажем относительно калорий. В этом случае корреляция будет низкой. С исследуемых данных были приведены автоматические инструменты надстроек, а также такие инструменты как (мода, медиана и проч.)