// YOLO · R-CNN · SSD · RETINANET · DETR

Detection Models

YOLO، Faster R-CNN، SSD ۋە DETR ئۇيغۇرچە سېلىشتۇرما قوللانما

Object detection ئۇقۇمىنى بىلگەندىن كېيىن سوئال شۇ: قايسى model نى ئىشلىتىمىز؟ بۇ بەتتە YOLO ئائىلىسى (v5، v8، v11)، Faster R-CNN، SSD، RetinaNet ۋە يېڭى DETR قاتارلىق ئەڭ مەشهۇر detection model لارنىڭ مىيخانىزمى، ئارتۇقچىلىقى ۋە قايسى ئەھۋالدا قايسىسىنى تاللاش كېرەكلىكىنى سېلىشتۇردۇق.

01 — Model Family 02 — One-stage vs Two-stage 03 — YOLO تارىخى 04 — Faster R-CNN 05 — SSD / RetinaNet 06 — DETR (Transformer) 07 — Benchmark 08 — قايسىسىنى تاللاش
model-comparison
YOLOv8 / v11
Speed Champion
real-time، single-pass، edge-friendly
Faster R-CNN
Accuracy Champion
two-stage، yuqori mAP، sekinroq
RetinaNet
Balanced
focal loss، small object كۈچلۈك
DETR
Transformer-based
anchor-free، end-to-end، set prediction
01
Detection Model نىڭ ئائىلىسى
The Model Landscape
ھەر model نىڭ ئۆز فىلوسوفىيىسى بار
Detection model لار ئاساسلىقى ئىككى يۇلغا بۇلىنىدۇ: one-stage (YOLO، SSD، RetinaNet — تېز، بىر قانال) ۋە two-stage (R-CNN ئائىلىسى — ئالدى region تەكلىپ قىلىپ، ئاندىن classify قىلىدۇ، ئەسلىدە ئاستا ئەمما ئېنىق). يېقىنقى يىللاردا transformer-based (DETR) يۈرۈشى ئوتتۇرىغا چىقتى.
Modelتۇرىچىقىش يىلىئاساسلىق ئالاھىدىلىك
YOLO (v1→v11)One-stage2016 — ھازىرReal-time، single forward pass
SSDOne-stage2016Multi-scale feature map
Faster R-CNNTwo-stage2015Region Proposal Network
RetinaNetOne-stage2017Focal loss، class imbalance چارىسى
DETRTransformer2020Anchor-free، set prediction
02
One-stage vs Two-stage
Speed vs Accuracy Trade-off
Region proposal بار-يوقلۇقى ئاساسلىق پەرق
One-stage
بىرلا forward pass دا box+class چىقىرىدۇ
تېز، real-time مۇمكىن
كىچىك ئوبيېكتتا بىردەك ياخشى ئەمەس
Two-stage
ئالدى region proposal، ئاندىن refine
mAP يۇقىرى، ئەمما ئاستا
offline/batch ئىشلىتىشكە ماس
Transformer-based
anchor، NMS كېرەكسىز (DETR)
global context كۈچلۈك
training ئۇزۇن ۋاقىت تەلەپ قىلىدۇ
03
YOLO نىڭ تەرەققىيات تارىخى
You Only Look Once — Evolution
v1 دىن v11 غىچە — نېمە ئۆزگەرگەن؟
نەشرىيىلىمۇھىم يېڭىلىقتەخمىنى mAP (COCO)
YOLOv12016Grid-based single-shot ئۈلگۈ~63%
YOLOv32018Multi-scale prediction، Darknet-53~57% (mAP@.5)
YOLOv52020PyTorch-native، ئاسان training/export~50% (mAP@.5:.95)
YOLOv82023Anchor-free head، C2f backbone~53%+
YOLOv112024Yengilashgan backbone، تېخىمۇ يۈرۈش/تېز~54%+
PYTHONyolo_infer.py
from ultralytics import YOLO

model = YOLO("yolo11n.pt")
results = model.predict("street.jpg", conf=0.25, iou=0.45)

for box in results[0].boxes:
    print(box.xyxy, box.conf, box.cls)
YOLO نىڭ ئاتى — "You Only Look Once" — رەسىمنى بىرلا قېتىم CNN دىن ئۆتكۈزۈپ، ھەممە box+class نى بىراقلا چىقىرىدىغان ئىدىيىدىن كەلگەن. شۇ سەبەبتىن real-time detection ئۈچۈن ئەڭ كۆپ تاللىنىدىغان model ئائىلىسى.
04
Faster R-CNN قانداق ئىشلەيدۇ؟
Region Proposal Network + Classifier
ئېنىقلىقنى ئالدىغا قويغان two-stage ئۇسۇل
Stage 01
RPN
Region Proposal Network
Feature map ئۈستىدە "ئوبيېكت بار بولۇشى مۇمكىن" بولغان region candidate لارنى تەكلىپ قىلىدۇ.
Stage 02
RoI Pooling
Region of Interest
ھەر region candidate نى تەڭشىمە ئۆلچەمدىكى feature گە ئايلاندۇرىدۇ.
Stage 03
Classifier + Regressor
ئاخىرقى box + class
Region لار ئۈچۈن ئاخىرقى class label ۋە box refine قىلىنىدۇ.
Faster R-CNN كۆپىنچە research benchmark ۋە ئېنىقلىق ئالدى سىستىمىلاردا، مەسىلەن medical imaging دا، تېخىمۇ كۆپ ئىشلىتىلىدۇ — چۈنكى ئىككى باسقۇچلۇق refine جەريانى mAP نى يۇقىرى قىلىدۇ.
05
SSD ۋە RetinaNet
Multi-scale One-stage Alternatives
YOLO دىن باشقا one-stage تاللانما
Modelئاساسلىق ئىدىيەكۈچلۈك تەرىپىكەمچىلىكى
SSDكۆپ ئۆلچەملىك feature map دىن بىۋاسىتە box چىقىرىدۇVGG backbone بىلەن تېزكىچىك ئوبيېكتتا ئاجىز
RetinaNetFocal loss ئارقىلىق easy/hard sample بالانسىsmall object كۈچلۈكYOLO غا قارىغاندا ئاستاراق
Focal Loss — RetinaNet نىڭ ئاچقۇچلۇق ئىخىتىراسى. كۆپ background sample (easy negative) لوس قىممىتىنى بېسىپ قويۇپ، model نى hard sample (كىچىك/قاتلاشقان ئوبيېكت) غا ئىنتايىن دىققەت قىلدۇرىدۇ.
06
DETR — Transformer Detection
End-to-End Set Prediction
Anchor ۋە NMS سىز يېڭى يول
DETR (Detection Transformer) — CNN backbone + transformer encoder-decoder ئارقىلىق رەسىمدىكى ئوبيېكتلارنى بىۋاسىتە "set" سۈپىتىدە بەشكۈرىدۇ. Anchor box، NMS قاتارلىق قول بىلەن تەڭشەلگەن heuristic لارنىڭ كۆپىنچىسىنى ئادەتتىكى hand-crafted component لاردىن قۇتۇلدۇرىدۇ.
Traditional (YOLO/SSD)
Anchor + NMS كېرەك
تېز inference
DETR
Anchor-free، NMS سىز
Training ئۇزۇن، lichik dataset غا ماس ئەمەس
07
Benchmark سېلىشتۇرمىسى
Speed vs Accuracy on COCO
تەخمىنى سان — hardware/config گە قاراپ ئۆزگىرىدۇ
ModelmAP@.5:.95 (تەخمىنى)FPS (GPU)ئەڭ ماس ئورۇن
YOLOv8n~37%~280+edge / mobile
YOLOv8x~53%~60سۈپەت-تېزلىك بالانسى
Faster R-CNN (ResNet50)~41%~15offline ئېنىقلىق ئالدى
RetinaNet~39%~20small object
DETR~42%~28research / global context
سان لار dataset، resolution ۋە hardware گە قاراپ كۆپ ئۆزگىرىدۇ — بۇ جەدۋەل پەقەت نىسپىي تەرتىپنى چۈشىنىش ئۈچۈن. ئۆزىڭىزنىڭ use case ىڭىزدا ھامان benchmark قىلىپ كۆرۈڭ.
08
قايسى مودېلنى تاللاش كېرەك؟
Decision Guide
Use case ئاساسلىق، "ئەڭ ياخشى model" دېگەن يوق
ئېھتىياجتەۋسىيەسەبەب
Real-time video / edge deviceYOLOv8/v11 (n/s)تېز، يىنىك، يۈرۈش export
ئەڭ يۇقىرى ئېنىقلىق، offline batchFaster R-CNNtwo-stage refine يۇقىرى mAP
كىچىك ئوبيېكت كۆپ (drone، aerial)RetinaNetfocal loss small object غا كۈچلۈك
Research / complex scene understandingDETR ۋە ۋارىيانتلىرىglobal context، end-to-end
تېز prototype، balancedYOLOv8m/lسۈپەت-تېزلىك ئەڭ ياخشى بالانس

ئەڭ قىسقا يەكۈن

Real-time لازىم بولسا YOLO، ئېنىقلىق ئالدى بولسا R-CNN ئائىلىسى، كىچىك ئوبيېكت كۆپ بولسا RetinaNet، ئىزدىنىش/يېڭى ئىدىيە بولسا DETR. Production دا ئادەتتە YOLOv8/v11 ئەڭ كۆپ تاللىنىدۇ — چۈنكى speed، accuracy ۋە deployment تولىمۇ بالانسلىق.