Макроусреднение метрик (оценок) качества методов информационного поиска ⎼ это метод, который позволяет оценить качество работы классификатора, учитывая не только общую метрику, но и метрики для каждого класса отдельно. При использовании макроусреднения, сперва производится расчет показателей TP (True Positive), FP (False Positive), FN (False Negative) и TN (True Negative) сразу по всем классам. Затем на основе этих показателей вычисляется итоговая метрика для классификатора в целом. Для более подробной информации приведу пример. Представим, что у нас есть классификатор, который должен определить, является ли письмо спамом или нет. У нас есть 100 писем, из которых 80 являются неспамом (True Negative) и 20 ⎼ спамом (True Positive). В то же время, классификатор ошибочно отнес 10 неспамовых писем к спаму (False Positive), и пропустил 10 спам-писем, считая их неспамом (False Negative). С помощью макроусреднения мы можем рассчитать показатели для каждого класса по отдельности. В данном случае, метрика для класса ″спам″ будет равна 20/(20 10) 0.666, а для класса ″не спам″ ⸺ 80/(80 10) 0.888. Когда мы знаем метрики для каждого класса, мы можем вычислить итоговую метрику для классификатора в целом. При макроусреднении мы просто усредняем метрики для каждого класса, в данном случае⁚ (0.666 0.888) / 2 0.777.
Макроусреднение метрик качества методов информационного поиска позволяет более детально оценить работу классификатора, учитывая метрики для каждого класса по отдельности. Это особенно полезно, когда у нас есть ситуации, где классы несбалансированы и важно учесть качество работы классификатора в каждом классе.