Skip to content

Latest commit

 

History

History
68 lines (54 loc) · 3.88 KB

File metadata and controls

68 lines (54 loc) · 3.88 KB

Pengesanan Kepala menggunakan Dataset Hollywood Heads

Tugasan Makmal daripada Kurikulum AI untuk Pemula.

Tugasan

Mengira bilangan orang dalam aliran kamera pengawasan video adalah tugas penting yang membolehkan kita menganggarkan jumlah pengunjung di kedai, waktu sibuk di restoran, dan sebagainya. Untuk menyelesaikan tugas ini, kita perlu dapat mengesan kepala manusia dari pelbagai sudut. Untuk melatih model pengesanan objek bagi mengesan kepala manusia, kita boleh menggunakan Dataset Hollywood Heads.

Dataset

Dataset Hollywood Heads mengandungi 369,846 kepala manusia yang telah dianotasi dalam 224,740 bingkai filem dari filem Hollywood. Ia disediakan dalam format [https://host.robots.ox.ac.uk/pascal/VOC/](../../../../../../lessons/4-ComputerVision/11-ObjectDetection/lab/PASCAL VOC), di mana untuk setiap imej terdapat juga fail penerangan XML yang kelihatan seperti ini:

<annotation>
	<folder>HollywoodHeads</folder>
	<filename>mov_021_149390.jpeg</filename>
	<source>
		<database>HollywoodHeads 2015 Database</database>
		<annotation>HollywoodHeads 2015</annotation>
		<image>WILLOW</image>
	</source>
	<size>
		<width>608</width>
		<height>320</height>
		<depth>3</depth>
	</size>
	<segmented>0</segmented>
	<object>
		<name>head</name>
		<bndbox>
			<xmin>201</xmin>
			<ymin>1</ymin>
			<xmax>480</xmax>
			<ymax>263</ymax>
		</bndbox>
		<difficult>0</difficult>
	</object>
	<object>
		<name>head</name>
		<bndbox>
			<xmin>3</xmin>
			<ymin>4</ymin>
			<xmax>241</xmax>
			<ymax>285</ymax>
		</bndbox>
		<difficult>0</difficult>
	</object>
</annotation>

Dalam dataset ini, hanya terdapat satu kelas objek iaitu head, dan untuk setiap kepala, anda akan mendapat koordinat kotak sempadan. Anda boleh memproses XML menggunakan perpustakaan Python, atau menggunakan perpustakaan ini untuk berurusan secara langsung dengan format PASCAL VOC.

Melatih Pengesanan Objek

Anda boleh melatih model pengesanan objek menggunakan salah satu cara berikut:

  • Menggunakan Azure Custom Vision dan API Python untuk melatih model secara programatik di awan. Custom Vision tidak dapat menggunakan lebih daripada beberapa ratus imej untuk melatih model, jadi anda mungkin perlu mengehadkan dataset.
  • Menggunakan contoh daripada tutorial Keras untuk melatih model RetunaNet.
  • Menggunakan modul terbina dalam torchvision.models.detection.RetinaNet dalam torchvision.

Pengajaran

Pengesanan objek adalah tugas yang sering diperlukan dalam industri. Walaupun terdapat beberapa perkhidmatan yang boleh digunakan untuk melakukan pengesanan objek (seperti Azure Custom Vision), adalah penting untuk memahami bagaimana pengesanan objek berfungsi dan mampu melatih model anda sendiri.


Penafian:
Dokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI Co-op Translator. Walaupun kami berusaha untuk memastikan ketepatan, sila ambil perhatian bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang berwibawa. Untuk maklumat penting, terjemahan manusia profesional adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.