서 론
작물 생육 모델링은 성장과 발육에 관한 생리적인 연구, 생산량 예측, 농가의 경영적인 관리 등 다양한 분야에서 유용한 도구로 사용될 수 있다. 이러한 기술을 통해 농장 현장에서 시간이 많이 소요될 수 있는 가설을 신속하게 검증할 수 있으며, 특히 작물 생산량 예측 모델은 어떤 작물을 재배할지와 언제 정식할지를 결정하는 데 도움을 줄 수 있다(Mariadass et al., 2022). 작물 재배 환경 변화에 따른 생육 예측은 농가의 경영 관리와 수익 안정성을 높이는 데에 중요한 역할을 하며, 기후 변화와 같은 다양한 요인으로 인해 이러한 예측의 중요성은 더욱 커지고 있다. 이를 위해 기존의 회귀적 방법 뿐만 아니라 인공지능 기술을 활용한 연구들이 진행되고 있다. 최근 연구에서는 딸기(Kim et al., 2022), 상추(Baek et al., 2023), 쌀(Ravi and Baranidharan, 2020), 옥수수(Gachoki et al., 2022), 토마토(Lee et al., 2023), 파프리카(Moon et al., 2020) 등 다양한 작물에 대한 생산량 예측이 이루어졌다. 과채류의 경우 주로 과실 생체중으로, 엽채류는 잎 생체중으로 생산량 예측하며, 이러한 연구들은 농업 분야에서 인공지능의 활용 가능성을 보여주며, 더 나은 작물 생산과 농가 수익 증대를 위한 기술 발전에 기여하고 있다.
XGBoost(eXtreme Gradient Boosting)는 처음에 Chen and Guestrin(2016)에 의해 제안된 알고리즘으로, 그래디언트 부스팅(Gradient Booting) 기법을 활용하여 이전 모델의 결과를 개선하고 오차를 최소화하며 예측 성능을 높이는 데 유용한 인공지능 모델이다(Mariadass et al., 2022; M’hamdi et al., 2024). Gradient booting는 잔차(residual))를 이용하여 이전 모델의 약점을 보완하는 새로운 모델을 순차적으로 적합시키고, 이들을 선형 결합하여 최종 모델을 생성하는 지도 학습 알고리즘이다(Friedman, 1999). XGBoost는 다수의 결정 크리를 결합하는 앙상블 학습 방법을 채택하여 일반적으로 높은 예측 정확도를 제공한다. M’hamdi et al.(2024)과 Ge et al.(2022) 연구에서는 각각 토마토 품질 예측과 증발산량 예측을 위한 적절한 머신 러닝 모델로 XGBoost를 제안하였다. Gachoki et al.(2022) 연구는 옥수수 생육 모델링 및 생산량 예측에 있어 고차원 및 복잡한 표현형 데이터를 처리하는 범용 모델로 XGBoost의 사용을 권장하였다. Ravi and Baranidharan(2020)의 연구에서는 쌀 생육 예측에 있어서 선형 회귀, Support Vector Regression(SVR), 결정 트리 및 랜덤 포레스트와 비교하여 XGBoost가 우수한 결과를 보여주었다고 보고하였다. 또한 Raddekar et al.(2023)은 목화 생육 예측에 있어서 XGBoost 모델이 선형 회귀, Lassor 회귀, 결정 트리 및 Adaboost를 포함한 다른 모델들보다 더 우수한 성능을 보였다고 하였다. 그러나 아직까지 상추 재배에 있어서 XGBoost 모델을 활용한 연구는 미흡한 실정이다.
따라서 본 연구는 XGBoost 모델을 활용하여 세가지 상추 품종의 생육량을 예측하는 데 초점을 맞추고자 한다.
재료 및 방법
실험 재료 및 재배 조건
본 실험은 2024년 1월 10일부터 4월 2일까지 강원특별자치도 철원군에 위치한 강원특별자치도농업기술원 산채연구소 과채류시험장의 연동형 온실에서 수행되었다. 식물재료는 상추 품종인 ‘이자트릭스(Ezatrix)’, ‘이자벨(Ezabel)’(Enza Zaden Co., Ltd., The Netherlands)과 ‘선풍포찹(Sunpungpochap)’(Kwonnong Co., Ltd., Korea)이 사용되었다. 재배 방식은 고형배지경 재배로, 사용된 배지는 코이어이며, 코이어배지(20 × 10 × 100 cm) 슬라브에 재식간격으로 베드당 5주를 심었다. 상추 전용 배양액은 주당 100 mL씩 하루당 3-7회 공급하였다.
생육량 측정은 정식 후 41일간 7일 간격으로 파괴 조사를 통해 이루어졌으며, 생체중과 건물중을 측정하였다. 생체중은 지하부를 제외한 지상부 식물체의 무게를 측정하였고, 건물중은 식물체를 70°C로 72시간 동안 건조한 후 측정하였다.
환경 측정은 HOBO 데이터로거(Onset Computer Co., MA, USA)를 이용하여 1분 간격으로 기온, 지온, 상대습도, 일사량을 측정하였다. 정식 후 41일 동안 지상부 온도는 평균 16.4°C (최소 10.8°C, 최대 30.7°C), 지하부 온도는 평균 16.5°C (최소 8.8°C, 최대 36.2°C), 상대습도는 평균 57.4% (최소 9.4%, 최대 75.0%), 일사량은 평균 43.8W・m-2(최소 0 W・m-2, 최대 533.8 W・m-2)로 측정되었다(Fig. 1).
인공지능 기법
인공지능 모델로는 XGBoost을 사용하였는데, XGBoost는 extreme gradient boost로, 기존 gradient tree boosting 알고리즘에 과적합 방지를 위한 기법이 추가된 지도 학습 알고리즘이다. XGBoost 모델은 다음과 같은 방정식을 사용하여 예측을 수행한다.
여기서, ŷi는 i번째 샘플의 예측값, K는 학습된 약한 학습자의 총 개수 그리고 𝑓𝑘(𝑥𝑖)는 k번째 약한 학습자의 예측값이다. 약한 학습자(Weak learner)는 머신 러닝에서 개별적으로 예측 성능이 뛰어나지 않지만, 여러 개의 약한 학습자를 결합하면 강력한 예측 모델을 만들 수 있는 학습 알고리즘을 의미한다. 이 방정식은 모든 약한 학습자의 예측값을 합산하여 최종 예측값을 계산한다. XGBoost의 목적 함수는 손실 함수와 정규화 항의 합으로 이루어져 있다.
여기서, OK는 목적 함수이고, ℓ(𝑦𝑖, ŷi)는 손실 함수, 실제 값 𝑦𝑖와 모델 예측 ŷi 간의 오차를 측정한다. Ω(𝑓𝑘)는 정규화 항으로, 모델의 복잡성을 제어하여 과적합을 방지한다. 손실 함수는 평균 제곱근 오차 (RMSE)와 같은 값으로 정의되며, 모델의 예측과 실제 값 간의 오차를 측정한다. 정규화 항은 모델의 복잡성을 제어하고 과적합을 방지하기 위해 추가된다. 따라서 XGBoost는 손실 함수를 최소화하면서 모델의 복잡성을 최적화하는 방향으로 학습된다. 이를 통해 과적합을 방지하고 더 일반화된 모델을 얻을 수 있다.
데이터셋 환경 변수(지상부와 근권 온도, 상대습도, 일사량)는 1분 단위로 수집하였고, 생육 변수는 15개체의 지상부 생체중과 건물중으로 설정하였다. 1분 당위 생육 변수는 선형 보간법을 이용하여 예측 후 학습에 사용하였다. 학습된 결과는 1시간 단위로 표기하였다. 테스트셋의 생육 변수는 지상부 생체중과 건물중으로 각각 30개체를 대상으로 하였으며, 검증된 결과 또한 1시간 단위로 표기하였다. 이상치는 이동평균을 이용하여 수정하였으며, 인공지능 모델의 성능을 평가하기 위해 K-fold 교차 검증을 수행하였다.
통계분석
실험구는 완전임의배치법으로 사용하였고, 생육 예측 및 검증은 PyCharm 2021.1.2(JetBrains s.r.o., USA) 프로그램을 사용하였다. 모든 그래프는 SigmaPlat(10.0, Systat software, Inc., Chicago, IL, USA) 프로그램을 이용하여 작성하였다.
결과 및 고찰
정식후 41일 후, 상추의 지상부 생체중과 건물중은 이자트릭스, 선풍포찹와 이자벨 품종 순이었다(Fig. 2). 작물의 생체중과 건물중을 추정하기 위해 Fig. 2 자료를 바탕으로 XGBoost 인공지능 모델을 이용하여 학습시켰다. XGBoost 인공지능 모델의 핵심 하이퍼파라미터로는 n_estimators(부스팅 트리의 수), learning_rate(학습률)와 max_depth(트리의 최대 깊이) 조건으로 모델을 생성하였으며, 하이퍼파라미터 n_estimators, learning_rate와 max_depth 의 설정값은 Table 1과 같다.
Table 1.
Optimized hyperparameters for XGBoost with lettuce cultivars
환경 변수로는 기온, 지온, 상대습도와 일사량이 고려되었다. 세 가지 상추 품종에 대한 XGBoost모델을 사용하여 성장량을 예측하고, 모델의 성능을 교차 검증을 통해 측정한 결과는 Fig. 3과 같다. XGBoost 모델의 핵심 하이퍼파라미터로는 n_estimators(부스팅 트리의 수), max_depth(트리의 최대 깊이), learning_rate(학습률) 등이 고려된다(M’hamdi et al., 2024; Raddekar et al., 2023). n_estimators는 모델이 학습할 수 있는 최대한의 반복 횟수를 의미하며, 각 반복마다 오차를 줄여간다. n_estimators의 값이 클수록 모델은 학습 데이터에 대해 더 세밀하게 학습할 수 있지만, 값이 너무 크면 과적합의 위험이 있다. Max_depth는 트리의 깊이로 데이터의 특성을 얼마나 상세하게 학습할 수 있는지를 결정한다. 더 깊은 트리는 더 복잡한 모델을 의미하며, 깊이가 낮은 트리는 모델의 학습 능력을 제한할 수 있다. Learning_rate는 학습 과정에서의 각 단계 별 업데이트 크기를 조절하며, 낮은 learning_rate은 모델의 과적합 방지 및 일반화 능력 향상에 기여하지만, 높은 learning_rate는 모델의 빠른 학습 및 초기 수렴을 촉진하지만, 과적합의 위험성을 증가시킬 수 있다.
이자트릭스, 이자벨과 선풍포찹의 지상부 생체중의 RMSE는 각각 0.955, 0.868와 0.882이었다. 이자트릭스, 이자벨과 선풍포찹의 지상부 건물중의 RMSE는 각각 0.946, 0.864와 0.888이었다. RMSE(root mean squared error)는 모델이 예측한 값과 실제 값 사이의 차이를 측정하는 지표로, RMSE값이 작을수록 모델의 예측이 정확함을 의미한다 세 품종에 대한 RMSE값이 0.8에서 0.9 사이로 나타나, 예측된 값과 실제 값 사이의 평균적인 오차가 약 0.8에서 0.9 정도 된다는 것을 의미한다. 이는 모델의 예측이 일반적으로 정확하다는 것을 나타낸다. 그러나 지상부 생체중과 건물중 모두 예측된 값의 변화폭이 큰 것을 확인하였다. 예측하고자 하는 값에 오차가 발생할 수 있으므로, 이상치를 구분할 필요가 있었다. 이를 해결하기 위해 이동평균을 적용하였다. 이동평균은 시계열 데이터에서 사용되는 일반적인 기술로, 이상치를 탐지하는 데 사용된다. 이상치는 이동평균과의 차이로 확인할 수 있다. 이동평균을 사용하여 예측한 결과는 Fig. 4와 같다.
이자트릭스, 이자벨, 선풍포찹의 지상부 생체중의 RMSE는 각각 0.709, 0.691, 0.621이었다. 이자트릭스, 이자벨, 선풍포찹의 지상부 건물중의 RMSE는 각각 0.635, 0.612, 0.691이었다. 이동평균을 사용하는 것이 RMSE 값을 더 낮출 수 있었다.
농업 분야에서 인공지능 기술은 작물 생산 예측뿐만 아니라 농작물의 생장 과정을 이해하고 최적의 재배 환경을 조성하는 데에도 큰 도움을 준다(Kim et al., 2022; Moon et al., 2020). 이는 기후 변화와 같은 외부 요인에 민감하게 반응하는 작물들을 효율적으로 관리하는 데에 핵심적인 역할을 한다. 또한, 인공지능을 활용한 농업은 더욱 정확하고 예측 가능한 작물 생산 시스템을 구축하여 식량 안정성을 향상시키는 데 기여할 것으로 기대된다. 따라서 이러한 연구은 농업 분야의 지속 가능성과 경제적 효율성을 높이는 데 큰 잠재력을 지니고 있다.
본 연구에서는 XGBoost 모델을 활용하여 세 가지 상추 품종의 생육량을 예측하였으며, 이 정보는 농가의 적절한 경영 전략 수립과 생산성 향상에 기여할 수 있다. 이를 통해 농업 분야에서의 인공지능 기술의 활용 가능성을 탐색하고, 더 나은 작물 생산과 농가 수익 증대를 위한 기술적 발전에 기여할 것으로 기대된다. 다만, 본 실험에서 XGBoost 모델을 사용하여 상추의 지상부 생체중과 건물중을 정확하게 예측했지만, 더 많은 환경 자료를 수집한다면 생산량 예측의 정확도가 향상될 것으로 예상된다. 향후 연구에서는 다른 머신 러닝 모델들과의 비교를 통해 XGBoost 모델의 성능을 더욱 향상시킬 수 있는 방법을 탐색해야 할 것이다. 또한 본 연구에서는 지상부와 근권 온도, 상대습도, 일사량만을 고려했지만, 추가적인 환경 변수와 근권부 환경을 더 포함시키고 식물체 생육 정보 데이터를 고려한다면 모델 예측의 정확도를 높일 수 있을 것이다. 또한 모델의 오차를 최소화하기 위해 데이터 수집과 분석 과정을 보다 신중하게 수행할 필요가 있다. 이러한 조치들을 통해 더욱 정확하고 신뢰할 수 있는 작물 생산량 예측 모델을 개발할 수 있을 것으로 기대된다. 이 연구의 결과는 스마트팜 기술에 적용될 수 있으며, 이를 통해 농업 생산성과 효율성을 높이는 데 중요한 기여를 할 수 있을 것이다.
작물 생산 관리에서 표현형 특성은 작물의 생장 상태를 판단하는 중요한 기준이다. 그러나 파괴적인 조사는 노동 집약적이며, 시간이 많이 소요되는 단점이 있다(Zhang et al., 2022). 이러한 단점을 보완하기 위해 이미지 처리 기반의 머신 러닝 모델이 개발되고 있으며, 이는 생장 모니터링과 수확량 예측에 있어 중요한 가치를 지닌다(Baek et al., 2023; Zhang et al., 2022). 본 연구에서는 파괴적인 조사 방법을 통해 생산량을 예측했지만, 향후에는 이미지 처리와 머신 러닝을 결합한 비파괴적인 방법을 통해 작물 생장 모니터링 및 수확량 예측의 정확성을 높이는 방향으로 발전시킬 필요가 있다. 이는 농업 생산의 효율성을 극대화하고, 노동력 및 시간을 절감하는 데 기여할 것이다.
적 요
작물 재배 환경의 변화에 따른 작물 생육 예측은 농가의 경영 관리와 수익 안정성을 높이는 데에 중요한 역할을 한다. 본 연구에서는 인공지능 모델 중 하나인 XGBoost 모델을 활용하여 세 가지 상추 품종의 생육량을 예측하고자 하였다. 식물재료는 상추 품종인, ‘이자트릭스(Ezatrix)’, ‘이자벨(Ezabel)’(Enza Zaden Co., Ltd., The Netherlands), 그리고 ‘선풍포찹(Sunpungpochap)’(Kwonnong Co., Ltd., Korea)을 사용하였다. 고형배지경 재배로 코이어 배지를 사용하였고, 환경 측정은 HOBO 데이터로거를 이용하여 1분 간격으로 기온, 지온, 상대습도, 일사량을 측정하였다. 인공지능 모델로는 XGBoost을 사용하였으며, 이 모델의 핵심 하이퍼파라미터로는 n_estimators(부스팅 트리의 수), learning_rate(학습률), 그리고 max_depth(트리의 최대 깊이)를 최적화하여 모델을 구축하였다환경 변수로는 기온, 지온, 상대습도, 그리고 일사량을 사용하였고, 세 가지 상추 품종에 대해 XGBoost모델을 활용하여 생육량을 예측하고, 모델의 성능을 교차 검증 하였다. 크게 벗어나는 생육량 값은 이상치로 간주하여 이동평균을 사용해 다시 예측하였다. 이자트릭스, 이자벨, 선풍포찹의 지상부 생체중의 RMSE는 각각 0.913, 0.864, 0.870이었으며, 지상부 건물중의 RMSE는 각각 0.901, 0.872, 0.867이었다. 본 연구에서는 XGBoost 모델을 활용하여 세가지 상추 품종의 생육량을 예측하였으며, 이 정보는 작물 재배 관리 계획과 생산성 향상에 기여할 수 있을 것으로 판단된다.