Makine öğreniminde, bir modelin performansını ve genelleme yeteneğini değerlendirmek amacıyla kullanılan yaygın bir teknik, modelin eğitim sırasında hiç görmediği bir veri alt kümesi üzerinde test edilmesidir. Bu süreç, eğitim verilerinin bir kısmının modelin ağırlıklarını ve parametrelerini öğrenmesi için kullanıldığı ve geri kalanının ise modelin performansını değerlendirmek için ayrıldığı bir prosedürdür. Eğitim verilerinin eğitimde kullanıldığı kısma eğitim seti denilirken, modelin doğrulama veya testi için ayrılan kısma test seti ya da doğrulama seti denir.
Bu yaklaşımın temel amacı, modelin yalnızca eğitim verilerine adapte olmasının önüne geçmek ve genel veri üzerinde ne kadar iyi performans gösterebildiğini ölçmektir. Örneğin, bir yüz tanıma modeli geliştiriyorsanız, modelinizi sadece belirli kişilerin fotoğraflarıyla eğitirseniz, model yeni yüzlerle karşılaştığında zorluklar yaşayabilir. Bu duruma aşırı öğrenme veya overfitting denir. Bu problemi ortadan kaldırmak için, modelin yeni ve daha önce görülmemiş verilerle test edilmesi gerekir. Bu süreç, modelin gerçek dünya uygulamalarında ne hızla ve ne doğrulukta çalışabileceğinin kritik bir göstergesidir. Bu nedenle, verinin bir kısmının model performansını test etmek üzere ayrılması, modelin gerçek veri üzerindeki başarısını ve yanıltıcı hataları minimize etmesini sağlar.
Ayrıca, bu değerlendirme sürecinde modelin hiperparametreleri ve diğer ayarları optimize edilerek en iyi performansın elde edilmesine çalışılır. Bir başka yaygın yaklaşım da cross-validation yani çapraz doğrulamadır; burada veri seti tekrar tekrar farklı eğitim ve test setlerine bölünerek modelin daha sağlam ve güvenilir bir doğruluk tahmini yapılır. Örneğin, 10-katlı çapraz doğrulama (10-fold cross-validation) yöntemi kullanılarak veri seti 10 eşit parçaya bölünür ve her bir parça test seti olarak kullanılırken, geri kalanı eğitim seti olarak kullanılır. Bu süreç 10 kez tekrarlanır ve sonuçların ortalaması alınarak modelin genel performansı hakkında daha güvenilir bir bilgi elde edilir. Bu nedenle, modelin değerlendirme sürecinde eğitim sırasında görmediği bir veri alt kümesi kullanılması, makine öğrenimi modellerinin doğruluğunu ve genelleme kapasitesini analiz etmede kritik bir rol oynar.