Detection Models

01

Detection Model نىڭ ئائىلىسى

The Model Landscape

ھەر model نىڭ ئۆز فىلوسوفىيىسى بار

Detection model لار ئاساسلىقى ئىككى يۇلغا بۇلىنىدۇ: one-stage (YOLO، SSD، RetinaNet — تېز، بىر قانال) ۋە two-stage (R-CNN ئائىلىسى — ئالدى region تەكلىپ قىلىپ، ئاندىن classify قىلىدۇ، ئەسلىدە ئاستا ئەمما ئېنىق). يېقىنقى يىللاردا transformer-based (DETR) يۈرۈشى ئوتتۇرىغا چىقتى.

Model	تۇرى	چىقىش يىلى	ئاساسلىق ئالاھىدىلىك
YOLO (v1→v11)	One-stage	2016 — ھازىر	Real-time، single forward pass
SSD	One-stage	2016	Multi-scale feature map
Faster R-CNN	Two-stage	2015	Region Proposal Network
RetinaNet	One-stage	2017	Focal loss، class imbalance چارىسى
DETR	Transformer	2020	Anchor-free، set prediction

02

One-stage vs Two-stage

Speed vs Accuracy Trade-off

Region proposal بار-يوقلۇقى ئاساسلىق پەرق

One-stage

بىرلا forward pass دا box+class چىقىرىدۇ

تېز، real-time مۇمكىن

كىچىك ئوبيېكتتا بىردەك ياخشى ئەمەس

Two-stage

ئالدى region proposal، ئاندىن refine

mAP يۇقىرى، ئەمما ئاستا

offline/batch ئىشلىتىشكە ماس

Transformer-based

anchor، NMS كېرەكسىز (DETR)

global context كۈچلۈك

training ئۇزۇن ۋاقىت تەلەپ قىلىدۇ

03

YOLO نىڭ تەرەققىيات تارىخى

You Only Look Once — Evolution

v1 دىن v11 غىچە — نېمە ئۆزگەرگەن؟

نەشرى	يىلى	مۇھىم يېڭىلىق	تەخمىنى mAP (COCO)
YOLOv1	2016	Grid-based single-shot ئۈلگۈ	~63%
YOLOv3	2018	Multi-scale prediction، Darknet-53	~57% (mAP@.5)
YOLOv5	2020	PyTorch-native، ئاسان training/export	~50% (mAP@.5:.95)
YOLOv8	2023	Anchor-free head، C2f backbone	~53%+
YOLOv11	2024	Yengilashgan backbone، تېخىمۇ يۈرۈش/تېز	~54%+

PYTHONyolo_infer.py

from ultralytics import YOLO

model = YOLO("yolo11n.pt")
results = model.predict("street.jpg", conf=0.25, iou=0.45)

for box in results[0].boxes:
    print(box.xyxy, box.conf, box.cls)

YOLO نىڭ ئاتى — "You Only Look Once" — رەسىمنى بىرلا قېتىم CNN دىن ئۆتكۈزۈپ، ھەممە box+class نى بىراقلا چىقىرىدىغان ئىدىيىدىن كەلگەن. شۇ سەبەبتىن real-time detection ئۈچۈن ئەڭ كۆپ تاللىنىدىغان model ئائىلىسى.

04

Faster R-CNN قانداق ئىشلەيدۇ؟

Region Proposal Network + Classifier

ئېنىقلىقنى ئالدىغا قويغان two-stage ئۇسۇل

Stage 01

RPN

Region Proposal Network

Feature map ئۈستىدە "ئوبيېكت بار بولۇشى مۇمكىن" بولغان region candidate لارنى تەكلىپ قىلىدۇ.

Stage 02

RoI Pooling

Region of Interest

ھەر region candidate نى تەڭشىمە ئۆلچەمدىكى feature گە ئايلاندۇرىدۇ.

Stage 03

Classifier + Regressor

ئاخىرقى box + class

Region لار ئۈچۈن ئاخىرقى class label ۋە box refine قىلىنىدۇ.

Faster R-CNN كۆپىنچە research benchmark ۋە ئېنىقلىق ئالدى سىستىمىلاردا، مەسىلەن medical imaging دا، تېخىمۇ كۆپ ئىشلىتىلىدۇ — چۈنكى ئىككى باسقۇچلۇق refine جەريانى mAP نى يۇقىرى قىلىدۇ.

05

SSD ۋە RetinaNet

Multi-scale One-stage Alternatives

YOLO دىن باشقا one-stage تاللانما

Model	ئاساسلىق ئىدىيە	كۈچلۈك تەرىپى	كەمچىلىكى
SSD	كۆپ ئۆلچەملىك feature map دىن بىۋاسىتە box چىقىرىدۇ	VGG backbone بىلەن تېز	كىچىك ئوبيېكتتا ئاجىز
RetinaNet	Focal loss ئارقىلىق easy/hard sample بالانسى	small object كۈچلۈك	YOLO غا قارىغاندا ئاستاراق

Focal Loss — RetinaNet نىڭ ئاچقۇچلۇق ئىخىتىراسى. كۆپ background sample (easy negative) لوس قىممىتىنى بېسىپ قويۇپ، model نى hard sample (كىچىك/قاتلاشقان ئوبيېكت) غا ئىنتايىن دىققەت قىلدۇرىدۇ.

06

DETR — Transformer Detection

End-to-End Set Prediction

Anchor ۋە NMS سىز يېڭى يول

DETR (Detection Transformer) — CNN backbone + transformer encoder-decoder ئارقىلىق رەسىمدىكى ئوبيېكتلارنى بىۋاسىتە "set" سۈپىتىدە بەشكۈرىدۇ. Anchor box، NMS قاتارلىق قول بىلەن تەڭشەلگەن heuristic لارنىڭ كۆپىنچىسىنى ئادەتتىكى hand-crafted component لاردىن قۇتۇلدۇرىدۇ.

Traditional (YOLO/SSD)

Anchor + NMS كېرەك

تېز inference

DETR

Anchor-free، NMS سىز

Training ئۇزۇن، lichik dataset غا ماس ئەمەس

07

Benchmark سېلىشتۇرمىسى

Speed vs Accuracy on COCO

تەخمىنى سان — hardware/config گە قاراپ ئۆزگىرىدۇ

Model	mAP@.5:.95 (تەخمىنى)	FPS (GPU)	ئەڭ ماس ئورۇن
YOLOv8n	~37%	~280+	edge / mobile
YOLOv8x	~53%	~60	سۈپەت-تېزلىك بالانسى
Faster R-CNN (ResNet50)	~41%	~15	offline ئېنىقلىق ئالدى
RetinaNet	~39%	~20	small object
DETR	~42%	~28	research / global context

سان لار dataset، resolution ۋە hardware گە قاراپ كۆپ ئۆزگىرىدۇ — بۇ جەدۋەل پەقەت نىسپىي تەرتىپنى چۈشىنىش ئۈچۈن. ئۆزىڭىزنىڭ use case ىڭىزدا ھامان benchmark قىلىپ كۆرۈڭ.

08

قايسى مودېلنى تاللاش كېرەك؟

Decision Guide

Use case ئاساسلىق، "ئەڭ ياخشى model" دېگەن يوق

ئېھتىياج	تەۋسىيە	سەبەب
Real-time video / edge device	YOLOv8/v11 (n/s)	تېز، يىنىك، يۈرۈش export
ئەڭ يۇقىرى ئېنىقلىق، offline batch	Faster R-CNN	two-stage refine يۇقىرى mAP
كىچىك ئوبيېكت كۆپ (drone، aerial)	RetinaNet	focal loss small object غا كۈچلۈك
Research / complex scene understanding	DETR ۋە ۋارىيانتلىرى	global context، end-to-end
تېز prototype، balanced	YOLOv8m/l	سۈپەت-تېزلىك ئەڭ ياخشى بالانس

ئەڭ قىسقا يەكۈن

Real-time لازىم بولسا YOLO، ئېنىقلىق ئالدى بولسا R-CNN ئائىلىسى، كىچىك ئوبيېكت كۆپ بولسا RetinaNet، ئىزدىنىش/يېڭى ئىدىيە بولسا DETR. Production دا ئادەتتە YOLOv8/v11 ئەڭ كۆپ تاللىنىدۇ — چۈنكى speed، accuracy ۋە deployment تولىمۇ بالانسلىق.

YOLO، Faster R-CNN، SSD ۋە DETR ئۇيغۇرچە سېلىشتۇرما قوللانما

ئەڭ قىسقا يەكۈن