Khoa học dữ liệu đã đưa ra cách tiếp cận khoa học và có hệ thống để phát hiện các biến số liên quan đến tỷ lệ sống cao hơn 80% tại một trang trại ở miền Trung Philippines như thế nào?

Hải sản là nguồn thực phẩm quan trọng cho dân số toàn cầu ngày càng tăng và đóng một vai trò quan trọng trong an ninh lương thực. Với nguồn thủy sản tự nhiên đang ngày càng suy giảm, nuôi trồng thủy sản đã trở thành một thành phần quan trọng trong việc đáp ứng các nhu cầu về hải sản – nhu cầu dự kiến sẽ tăng gấp 5 lần trong thập kỷ tới. Tuy nhiên, đảm bảo an ninh thủy sản toàn cầu là một vấn đề phức tạp đòi hỏi cách tiếp cận đa ngành, bao gồm cả việc sử dụng khoa học dữ liệu để tối ưu hóa năng suất trang trại nuôi trồng thủy sản. Tối đa hóa năng suất trong khi giảm thiểu chất thải và tác động môi trường đòi hỏi sự hiểu biết thấu đáo về các yếu tố sinh học và môi trường ảnh hưởng đến sự tăng trưởng và sức khỏe của các loài thủy sản.

Các phương pháp nuôi trồng thủy sản truyền thống dựa trên việc “thử-và-sai” và trực giác, dẫn đến kết quả dưới mức tối ưu và tăng chi phí. Mặt khác, khoa học dữ liệu cung cấp một cách tiếp cận có hệ thống và khoa học để tối ưu hóa năng suất. Bằng cách thu thập và phân tích lượng dữ liệu lớn, các nhà khoa học dữ liệu có thể xác định mẫu và các mối quan hệ khó nhận ra được bằng trực giác.

Nghiên cứu tình huống hợp tác với một trang trại ở miền Trung Philippines

NSB-NB5 là một trang trại nuôi tôm ở miền Trung Philippines đang bắt đầu áp dụng đổi mới dựa trên dữ liệu. Trong ba vụ thu hoạch được ghi nhận trước đây, trang trại đã giảm tới 50% sản lượng dự kiến. Điều này có nghĩa là có tới một nửa sản lượng thu hoạch dự kiến không đến được với thị trường. Mặc dù đã cố gắng giữ các thông số đầu vào tiêu chuẩn tại trang trại bao gồm thức ăn, probiotics và chất lượng nước, nhưng vấn đề suy giảm sản lượng vẫn xảy ra. NSB-NB5 quan tâm đến việc xác định những thông số có thể điều chỉnh liên quan đến kết quả này. Trang trại này đã tìm đến công ty tư vấn khoa học dữ liệu Birkentech Solutions Pty Ltd của Úc, tập trung vào hỗ trợ nông nghiệp và nuôi trồng thủy sản, để phân tích các biến số trong ao và xác định những biến số liên quan đến tỷ lệ sống và năng suất tôm cao.

Phương pháp tiếp cận khoa học dữ liệu dựa trên thống kê

Birkentech đã đề xuất phương pháp tiếp cận khoa học dữ liệu dựa trên thống kê để đạt được mục tiêu này. Điều này đã được thực hiện với sự cộng tác chặt chẽ với đội ngũ quản lý trang trại và kỹ thuật viên. Dữ liệu được thu thập từ 3 vụ thu hoạch của 9 ao nuôi tôm thẻ chân trắng với các giá trị được ghi lại hàng ngày bao gồm các phép đo hóa lý, thức ăn và chất bổ sung và thông tin quản lý nguồn nước đầu vào.

Các thông số hóa lý bao gồm pH, oxy hòa tan, nhiệt độ, độ mặn, độ sâu, độ trong, màu nước và thời tiết. Quản lý nguồn nước đầu vào bao gồm chất khử trùng hữu cơ, probiotics cho nước và khoáng chất. Tên thức ăn và chất bổ sung đã được mã hóa để bảo vệ thông tin độc quyền.

Vào cuối mỗi vụ thu hoạch, tỷ lệ phần trăm sống sót được ghi lại cho mỗi ao. Tỷ lệ sống ghi nhận được cho biết kết quả sức khỏe của tôm nuôi vào cuối mỗi vụ thu hoạch, được sử dụng làm biến số mục tiêu cho nghiên cứu với ngưỡng tỷ lệ sống được đặt là 80%.

Tổng cộng có 22.968 điểm dữ liệu đã được cung cấp. Đầu tiên, tóm tắt cơ bản của dữ liệu được mô tả trong Bảng 1.

Bảng 1. Thống kê mô tả cơ bản của tập dữ liệu

Dữ liệu này bao gồm giá trị trung bình (mean), trung vị (median), tối thiểu (min), tối đa (max) và độ lệch chuẩn (SD) của các biến số. Đối với các biến phân loại như màu sắc và thời tiết, phân bố tần suất được tính toán để mô tả tóm tắt cơ bản. Giá trị bị thiếu được xử lý bằng cách sử dụng gói MICE trong R để điền giá trị vào.

Các ao được so sánh về mặt biến thiên bằng cách sử dụng kỹ thuật phân cụm không giám sát để đánh giá xem tất cả các ao giống nhau hay khác nhau. K- nghĩa là phân cụm đã được áp dụng; đây là một trong những kỹ thuật học máy không giám sát cơ bản nhất và thường được sử dụng để tìm các mẫu cơ bản bằng cách nhóm các điểm dữ liệu tương tự lại với nhau.

Phương pháp Silhouette cho thấy k = 2 là số tâm cụm tối ưu để thực hiện phân tích. Dựa trên phân tích phân cụm, các điểm dữ liệu cho thấy rằng các cụm được hình thành từ k=2 trùng lặp với nhau. Điều này cho thấy rằng tất cả các điểm dữ liệu có thể được coi là một cụm và không có một ao nào hoạt động khác với một cụm riêng biệt (Hình 1). Ví dụ, 68 trong số 119 điểm dữ liệu trong ao 2 được hình thành với một trọng tâm và 51 điểm được hình thành với trọng tâm khác. Một sự phân chia tương tự giữa hai trọng tâm đã được tìm thấy cho các điểm dữ liệu của tất cả các ao khác. Do đó, phân tích được thực hiện trên tất cả các điểm dữ liệu chung.

Hình 1. Phân tích cụm các điểm dữ liệu từ 9 ao của trang trại NSB-NB5 được thu thập trong ba vụ thu hoạch.

Các biến quan trọng liên quan đến kết quả về tỷ lệ sống được xác định bằng thuật toán Boruta. Boruta là một thuật toán lựa chọn tính năng dựa trên thuật toán rừng ngẫu nhiên, xác định các tính năng quan trọng dựa trên ý nghĩa thống kê.

Tóm lại, nó hoạt động bằng cách so sánh điểm Z được tính toán của từng biến sử dụng các giá trị ban đầu trong mô hình với điểm Z tối đa của từng biến sử dụng một tập hợp giá trị ngẫu nhiên. Sau đó, nó loại bỏ các biến có điểm Z thấp hơn điểm Z tối đa của các biến ngẫu nhiên. Các biến có chỉ số Z cao hơn sau đó được hiểu là các biến quan trọng.

Sau đó, phân tích tương quan bổ sung sử dụng tương quan Pearson được thực hiện trên các biến kết quả để khám phá mối quan hệ giữa hai cặp biến bất kỳ. Điều này cho thấy rằng các sản phẩm thức ăn có mối quan hệ tuyến tính với nhau trong việc cải thiện tỷ lệ sống của tôm. Công cụ phần mềm Python đã được sử dụng để chạy các phân tích.

Từ phân tích này, người ta đã xác định được rằng các biến số về thức ăn và chất bổ sung cụ thể có liên quan chặt chẽ với tỷ lệ sống sót cao (>80%). Từ tập hợp các biến hóa lý – oxy hòa tan, pH, độ sâu, nhiệt độ và độ mặn được xác định là các thông số quan trọng. Từ tập hợp các biến quản lý nguồn nước đầu vào, nồng độ amoniac và magie được xác định là các thông số quan trọng đối với sự sống của tôm. Như được hiển thị trong Bảng 2, các biến này được hỗ trợ với điểm quan trọng trung bình được tạo ra bởi thuật toán Boruta.

Bảng 2: Danh sách các yếu tố liên quan đến tỷ lệ sống cao (80%) trong nuôi tôm dựa trên phân tích thống kê về bộ dữ liệu ngành.

Ao nuôi tôm thẻ chân trắng tại trang trại NSB-NBS ở miền Trung Philippines

Vậy ý nghĩa là gì?

Sự hợp tác chặt chẽ với nông dân và kỹ thuật viên là rất quan trọng để diễn giải một cách hợp lý các kết quả nghiên cứu về NSB-NB5. Điều này có khả năng cung cấp thông tin và hướng dẫn các thực hành trang trại về những biến số nhạy cảm với năng suất thu hoạch, đòi hỏi phải giám sát chặt chẽ và điều chỉnh cẩn thận.

Tuy nhiên, không phải nghiên cứu một lần là xong. Nó đòi hỏi phải đưa kết quả vào thực tế và đánh giá lại sau một vài vụ thu hoạch xem có cải thiện được năng suất hay không. Cũng cần lưu ý rằng nhiều biến số quản lý nước và hóa lý được phát hiện có liên quan đến tỷ lệ sống cao trong phân tích này đã được biết đến và đưa vào các phương pháp hay nhất trong ngành trong nhiều năm.

Sự đột phá của các kết quả, trong trường hợp này, là việc phát hiện ra 6 loại thức ăn và một sản phẩm bổ sung, rất có thể giữ chìa khóa giúp đạt năng suất tối ưu ít nhất 80% cho trang trại. Điều này có nghĩa là tăng gần gấp đôi số lượng sản phẩm cho thị trường và tăng gấp đôi đóng góp cho nguồn cung thủy sản địa phương.

Những kết quả như vậy giúp nông dân tối ưu hóa năng suất của trang trại và đảm bảo rằng các thông số được kiểm soát cẩn thận. Từ góc độ kinh tế, điều này giúp giảm lãng phí, tối đa hóa tiềm năng tài nguyên và cải thiện tỷ lệ tăng trưởng, mang lại sản lượng cao hơn và tăng lợi nhuận. Bằng cách sử dụng dữ liệu sản xuất trước đây và kỹ thuật lập mô hình, nông dân có thể tối ưu hóa sản xuất, giảm nguy cơ quá tải và sử dụng các nguồn tài nguyên không hiệu quả.

Ngoài ra, các kỹ thuật khoa học dữ liệu có thể giúp nông dân theo dõi và kiểm soát chất lượng nước, giảm nguy cơ bùng phát dịch bệnh và cải thiện sức khỏe tổng thể của vật nuôi. Phân tích sâu hơn có thể khám phá sự phát triển và sử dụng các mô hình dự đoán bằng các phương pháp học máy tương tự để dự báo xu hướng cung và cầu trong tương lai, cũng như giúp nông dân đưa ra quyết định sáng suốt về mức độ sản xuất và quản lý hàng tồn kho. Những mô hình này cũng có thể được sử dụng để đánh giá các yếu tố môi trường, như nhiệt độ và chất lượng nước, và tác động của chúng đối với sức khỏe và sự tăng trưởng của vật nuôi, cho phép nông dân thực hiện các biện pháp phòng ngừa chủ động.

Cần nhiều nghiên cứu hơn

Vẫn còn rất nhiều việc cần phải làm. Hầu hết các trang trại không có công nghệ hỗ trợ để áp dụng các phương pháp này. Không giống như NSB-NB5, không phải tất cả nông dân đều sẵn sàng khám phá những lợi ích của khoa học dữ liệu. Nhiều yếu tố khác góp phần vào việc chậm áp dụng phương pháp này trong ngành nuôi trồng thủy sản. Những yếu tố đó bao gồm thiếu nhận thức và hiểu biết, hạn chế về chuyên môn công nghệ, hạn chế về tính sẵn có của dữ liệu, chi phí triển khai cao và tập trung vào các phương pháp truyền thống hơn trong hầu hết các bối cảnh.

Khi lợi ích của khoa học dữ liệu được công nhận rộng rãi trong lĩnh vực này và chuyên môn kỹ thuật cũng như tính sẵn có của dữ liệu được cải thiện, chúng tôi hy vọng sẽ thấy nhiều nông dân nuôi trồng thủy sản áp dụng các phương pháp này để cải thiện hoạt động của họ và tăng lợi nhuận. Đây là nhiệm vụ của Birkentech.

Tôm thẻ chân trắng sản xuất bởi trang trại NSB-NB5 ở miền Trung Philippines.

Việc sử dụng khoa học dữ liệu trong ngành nuôi tôm/cá vẫn đang ở giai đoạn đầu. Các ứng dụng của nó trong nuôi trồng thủy sản là rất quan trọng để đảm bảo an ninh và tính bền vững của thủy sản toàn cầu. Tuy nhiên, cần lưu ý rằng các nhà khoa học dữ liệu nên hợp tác chặt chẽ với các chuyên gia trong lĩnh vực như nông dân nuôi trồng thủy sản và kỹ thuật viên trang trại để đưa ra những diễn giải hợp lý từ dữ liệu.

Theo Aqua Culture Asia Pacific

Nguồn: https://aquaasiapac.com/issue/march-april-2023/

Biên dịch: Huyền Thoại – Tôm Giống Gia Hóa Bình Minh

TÔM GIỐNG GIA HÓA- CHÌA KHÓA THÀNH CÔNG 

Xem thêm:

 

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *