01
Detection Model نىڭ ئائىلىسى
The Model Landscape
ھەر model نىڭ ئۆز فىلوسوفىيىسى بار
Detection model لار ئاساسلىقى ئىككى يۇلغا بۇلىنىدۇ: one-stage (YOLO، SSD، RetinaNet — تېز، بىر قانال) ۋە two-stage (R-CNN ئائىلىسى — ئالدى region تەكلىپ قىلىپ، ئاندىن classify قىلىدۇ، ئەسلىدە ئاستا ئەمما ئېنىق). يېقىنقى يىللاردا transformer-based (DETR) يۈرۈشى ئوتتۇرىغا چىقتى.
| Model | تۇرى | چىقىش يىلى | ئاساسلىق ئالاھىدىلىك |
| YOLO (v1→v11) | One-stage | 2016 — ھازىر | Real-time، single forward pass |
| SSD | One-stage | 2016 | Multi-scale feature map |
| Faster R-CNN | Two-stage | 2015 | Region Proposal Network |
| RetinaNet | One-stage | 2017 | Focal loss، class imbalance چارىسى |
| DETR | Transformer | 2020 | Anchor-free، set prediction |
02
One-stage vs Two-stage
Speed vs Accuracy Trade-off
Region proposal بار-يوقلۇقى ئاساسلىق پەرق
One-stage
بىرلا forward pass دا box+class چىقىرىدۇ
كىچىك ئوبيېكتتا بىردەك ياخشى ئەمەس
Two-stage
ئالدى region proposal، ئاندىن refine
offline/batch ئىشلىتىشكە ماس
Transformer-based
anchor، NMS كېرەكسىز (DETR)
training ئۇزۇن ۋاقىت تەلەپ قىلىدۇ
03
YOLO نىڭ تەرەققىيات تارىخى
You Only Look Once — Evolution
v1 دىن v11 غىچە — نېمە ئۆزگەرگەن؟
| نەشرى | يىلى | مۇھىم يېڭىلىق | تەخمىنى mAP (COCO) |
| YOLOv1 | 2016 | Grid-based single-shot ئۈلگۈ | ~63% |
| YOLOv3 | 2018 | Multi-scale prediction، Darknet-53 | ~57% (mAP@.5) |
| YOLOv5 | 2020 | PyTorch-native، ئاسان training/export | ~50% (mAP@.5:.95) |
| YOLOv8 | 2023 | Anchor-free head، C2f backbone | ~53%+ |
| YOLOv11 | 2024 | Yengilashgan backbone، تېخىمۇ يۈرۈش/تېز | ~54%+ |
from ultralytics import YOLO
model = YOLO("yolo11n.pt")
results = model.predict("street.jpg", conf=0.25, iou=0.45)
for box in results[0].boxes:
print(box.xyxy, box.conf, box.cls)
YOLO نىڭ ئاتى — "You Only Look Once" — رەسىمنى بىرلا قېتىم CNN دىن ئۆتكۈزۈپ، ھەممە box+class نى بىراقلا چىقىرىدىغان ئىدىيىدىن كەلگەن. شۇ سەبەبتىن real-time detection ئۈچۈن ئەڭ كۆپ تاللىنىدىغان model ئائىلىسى.
04
Faster R-CNN قانداق ئىشلەيدۇ؟
Region Proposal Network + Classifier
ئېنىقلىقنى ئالدىغا قويغان two-stage ئۇسۇل
Stage 01
RPN
Region Proposal Network
Feature map ئۈستىدە "ئوبيېكت بار بولۇشى مۇمكىن" بولغان region candidate لارنى تەكلىپ قىلىدۇ.
Stage 02
RoI Pooling
Region of Interest
ھەر region candidate نى تەڭشىمە ئۆلچەمدىكى feature گە ئايلاندۇرىدۇ.
Stage 03
Classifier + Regressor
ئاخىرقى box + class
Region لار ئۈچۈن ئاخىرقى class label ۋە box refine قىلىنىدۇ.
Faster R-CNN كۆپىنچە research benchmark ۋە ئېنىقلىق ئالدى سىستىمىلاردا، مەسىلەن medical imaging دا، تېخىمۇ كۆپ ئىشلىتىلىدۇ — چۈنكى ئىككى باسقۇچلۇق refine جەريانى mAP نى يۇقىرى قىلىدۇ.
05
SSD ۋە RetinaNet
Multi-scale One-stage Alternatives
YOLO دىن باشقا one-stage تاللانما
| Model | ئاساسلىق ئىدىيە | كۈچلۈك تەرىپى | كەمچىلىكى |
| SSD | كۆپ ئۆلچەملىك feature map دىن بىۋاسىتە box چىقىرىدۇ | VGG backbone بىلەن تېز | كىچىك ئوبيېكتتا ئاجىز |
| RetinaNet | Focal loss ئارقىلىق easy/hard sample بالانسى | small object كۈچلۈك | YOLO غا قارىغاندا ئاستاراق |
Focal Loss — RetinaNet نىڭ ئاچقۇچلۇق ئىخىتىراسى. كۆپ background sample (easy negative) لوس قىممىتىنى بېسىپ قويۇپ، model نى hard sample (كىچىك/قاتلاشقان ئوبيېكت) غا ئىنتايىن دىققەت قىلدۇرىدۇ.
06
DETR — Transformer Detection
End-to-End Set Prediction
Anchor ۋە NMS سىز يېڭى يول
DETR (Detection Transformer) — CNN backbone + transformer encoder-decoder ئارقىلىق رەسىمدىكى ئوبيېكتلارنى بىۋاسىتە "set" سۈپىتىدە بەشكۈرىدۇ. Anchor box، NMS قاتارلىق قول بىلەن تەڭشەلگەن heuristic لارنىڭ كۆپىنچىسىنى ئادەتتىكى hand-crafted component لاردىن قۇتۇلدۇرىدۇ.
DETR
Training ئۇزۇن، lichik dataset غا ماس ئەمەس
07
Benchmark سېلىشتۇرمىسى
Speed vs Accuracy on COCO
تەخمىنى سان — hardware/config گە قاراپ ئۆزگىرىدۇ
| Model | mAP@.5:.95 (تەخمىنى) | FPS (GPU) | ئەڭ ماس ئورۇن |
| YOLOv8n | ~37% | ~280+ | edge / mobile |
| YOLOv8x | ~53% | ~60 | سۈپەت-تېزلىك بالانسى |
| Faster R-CNN (ResNet50) | ~41% | ~15 | offline ئېنىقلىق ئالدى |
| RetinaNet | ~39% | ~20 | small object |
| DETR | ~42% | ~28 | research / global context |
سان لار dataset، resolution ۋە hardware گە قاراپ كۆپ ئۆزگىرىدۇ — بۇ جەدۋەل پەقەت نىسپىي تەرتىپنى چۈشىنىش ئۈچۈن. ئۆزىڭىزنىڭ use case ىڭىزدا ھامان benchmark قىلىپ كۆرۈڭ.
08
قايسى مودېلنى تاللاش كېرەك؟
Decision Guide
Use case ئاساسلىق، "ئەڭ ياخشى model" دېگەن يوق
| ئېھتىياج | تەۋسىيە | سەبەب |
| Real-time video / edge device | YOLOv8/v11 (n/s) | تېز، يىنىك، يۈرۈش export |
| ئەڭ يۇقىرى ئېنىقلىق، offline batch | Faster R-CNN | two-stage refine يۇقىرى mAP |
| كىچىك ئوبيېكت كۆپ (drone، aerial) | RetinaNet | focal loss small object غا كۈچلۈك |
| Research / complex scene understanding | DETR ۋە ۋارىيانتلىرى | global context، end-to-end |
| تېز prototype، balanced | YOLOv8m/l | سۈپەت-تېزلىك ئەڭ ياخشى بالانس |
ئەڭ قىسقا يەكۈن
Real-time لازىم بولسا YOLO، ئېنىقلىق ئالدى بولسا R-CNN ئائىلىسى، كىچىك ئوبيېكت كۆپ بولسا RetinaNet، ئىزدىنىش/يېڭى ئىدىيە بولسا DETR. Production دا ئادەتتە YOLOv8/v11 ئەڭ كۆپ تاللىنىدۇ — چۈنكى speed، accuracy ۋە deployment تولىمۇ بالانسلىق.