Я сам столкнулся с проблемой классификации при работе с ненормированными данными и могу поделиться своим опытом. В таких случаях очень важно выбрать наиболее информативную метрику для оценки качества модели.Одной из самых популярных метрик является точность (accuracy). Эта метрика показывает долю правильно классифицированных объектов от общего числа. Она проста в понимании и использовании. Однако, при ненормированных данных точность может быть не очень информативной. В таких случаях стоит обратить внимание на другие метрики.
Для работы с ненормированными данными можно использовать метрику F-мера (F-score). Она позволяет учесть не только точность, но и полноту (recall) классификатора; F-мера является средним гармоническим между точностью и полнотой. Она особенно полезна, когда мы хотим достичь баланса между обнаружением класса и точностью его определения.
Еще одна полезная метрика — площадь под ROC-кривой (AUC-ROC). ROC-кривая показывает зависимость между долей истинно положительных результатов и долей ложно положительных результатов. AUC-ROC ― это площадь под этой кривой, и она является показателем качества классификатора. При ненормированных данных AUC-ROC может быть более информативной, чем точность, так как она учитывает баланс между различными классами и устойчива к несбалансированным данным.
Однако, выбор метрики зависит от конкретной задачи и типа данных. Например, если важно избежать ложно положительных результатов, то метрика precision будет более важной, чем метрика recall. Важно также учитывать специфику данных и цели классификации.
В итоге, при использовании ненормированных данных для задачи классификации, наиболее информативной метрикой может быть F-мера, AUC-ROC или точность, в зависимости от поставленных целей и специфики данных. Важно экспериментировать и выбрать ту метрику, которая наилучшим образом отражает качество модели в конкретном случае.