Tuy nhiên, 95% các khối u ác tính này có thể được chữa trị nếu được phát hiện trong giai đoạn đầu.
Phát hiện sớm tổn thương ác tính thông qua các kỹ thuật chính xác và công nghệ tiên tiến có tác động đáng kể đến việc giảm tỷ lệ tử vong do ung thư da gây nên.
Đây cũng chính là ý tưởng và đề tài mà nhóm nghiên cứu gồm anh Phạm Trí Công, anh Trần Công Thành đến từ đơn vị FHN.DCS (FPT Software) và các nhà nghiên cứu khác cùng thực hiện.
Công trình nghiên cứu khoa học “Nâng cao hiệu quả phân loại bệnh về da dựa vào tối ưu hàm mất mát kết hợp với lựa chọn dữ liệu cân bằng và nhân bản dữ liệu thời gian thực trong mỗi bước huấn luyện” đã được xuất bản tại tạp chí IEEE Access – Tạp chí xếp hạng Q1 (nhóm Q1 là nhóm cao nhất và uy tín nhất trong bảng đánh giá chất lượng của tạp chí chuyên ngành.)
Điểm mới của đề tài
Gần đây, Trí tuệ nhân tạo đi đầu trong việc hỗ trợ chẩn đoán ung thư da dựa trên các hình ảnh y tế.
Nhiều mô hình học sâu đã được nghiên cứu và phát triển, tuy nhiên một vấn đề lớn mà chúng ta vẫn đang phải đối mặt đó là sự mất cân bằng về hiệu quả giữa các lớp trong phép phân loại nhiều lớp (multi-class classification).
Bài nghiên cứu tập trung vào giải quyết hai vấn đề còn tồn đọng, đó là:
1.Nguồn dataset giới hạn và mất cân bằng
2.Sự mất cân bằng về hiệu suất phân loại giữa các loại bệnh (đặc biệt là giữa Melanoma và Nevus).
Phương pháp thực hiện
Trong nghiên cứu này, một phương pháp kết hợp đã được sử dụng để xử lý việc mất cân bằng lớp, bao gồm 4 thành phần chính: Balanced Mini-batch logic, Real-time Image Augmentation, CNN và Custom fully connected layers.
Quá trình training trải qua 4 bước: Lựa chọn hình ảnh cho từng mini-batch; Phóng đại hình ảnh; Huấn luyện các hình ảnh được phóng đại bằng CNN để lựa chọn các đặc tính; cuối cùng: Huấn luyện các layers được kết nối đầy đủ với những đặc tính được lựa chọn ở bước trước.
Kết quả và những đóng góp mà nghiên cứu mang lại
Như đã đề cập ở trên, nhóm nghiên cứu đã đề xuất một phương thức kết hợp, cụ thể là kết hợp giữa phương pháp logic mini-batch và phóng đại hình ảnh trên thời gian thực ở cấp dữ liệu và phương pháp thiết kế hàm mất mát mới ở cấp thuật toán.
Kết quả của nghiên cứu này có thể tóm tắt trong 4 ý chính sau:
Đầu tiên, mô hình EfficientNetB4-CLF được đề xuất bởi nhóm nghiên cứu đạt được độ chính xác cao nhất là 89,97%, đạt recall trung bình cao nhất là 86,13%, recall độ lệch chuẩn nhỏ nhất là 7,60%, thấp nhất trong 6 phương thức.
So với các phương pháp truyền thống, phương pháp của nhóm nghiên cứu không chỉ đạt recall trung bình lớn hơn 4,65% (86,13% so với 81,48%), mà còn giảm recall độ lệch chuẩn xuống 4,24% (từ ± 11,84% xuống ± 7,60%).
Kết quả trên đạt được trên bộ dữ liệu Test-10 gồm 2453 hình ảnh về da.
Thứ hai, sự kết hợp giữa lựa chọn dữ liệu cân bằng và nhân bản dữ liệu thời gian thực trong mỗi bước huấn luyện cho thấy được tính hiệu quả trong việc training các network với bộ dữ liệu da không cân bằng, từ đó giúp tăng hiệu suất trên cả 2 mạng này: DenseNet169 và EfficieneNetB4.
Thứ ba, so với ORI (unchanged batch logic and loss function) và BON (changed only batch logic), CLF (changed both batch logic and loss function) có hiệu quả trong việc tăng mRecall khi được áp dụng trong cả 2 kiến trúc CNN.
Ngoài ra, bằng cách giảm stdev, CLF đã minh chứng cho việc cải thiện hiệu quả học tập của các lớp nhỏ trên một tập dữ liệu không cân bằng.
Thứ tư, nghiên cứu mở ra cơ hội trong việc phân tích hình ảnh y tế với bộ dữ liệu không cân bằng của nhiều loại bệnh lý khác nhau chứ không dừng lại trong việc phân loại các bệnh về da.
Theo Tech Insight