서 론
감귤(Citrus unshiu)을 비롯한 만감류(C. unshiu × C. sinensis)는 국내에서 겨울에 생산되는 대표적인 과일로, 한반도의 최남단 지역인 제주도의 경제에 중요한 역할을 담당하고 있다. 감귤 생산량의 증대는 토양 무기양분의 철저한 관리가 필수적이기 때문에, 감귤을 대상으로 무기 양분의 결핍에 따른 증상에 대한 많은 연구가 이루어졌다(Anh et al., 2003; Han, 2005; Kang, 2006; Park, 2003; Srivastava, 2013). 작물 생장에 필수적인 영양분 중에서 가장 중요한 것은 질소로(Carranca et al., 2018), 핵산, 아미노산, 단백질, 식물 호르몬, 엽록체의 구성 성분이며, 1·2차 대사산물의 합성에도 중요한 역할을 하는 것으로 알려져 있다(Cheng et al., 2020; Huang et al., 2021). 질소가 결핍되면 감귤의 수체 생육이 불량해지고, 잎은 황화 및 노화되어 결국 탈리가 일어나 낙엽된다(Kang, 2006; Wutscher and Smith, 1993). 또한 과일의 수량은 감소하고 과육이 단단해지며 산미도 적어 저장성이 나빠진다(Han, 2005). 질소는 식물의 여러 생리작용 중 가장 중요한 광합성에 핵심적인 역할을 담당하며, 잎이 동화산물이 합성되는 “source”로써의 역할을 하게 한다.
과수작물 뿐만 아니라 모든 작물에서 생산량의 증대를 위해 질소질 비료의 시용이 오래전부터 관행적으로 수행되어 왔다(Sainju et al., 2019; Li et al., 2019). 최근에는 질소질 비료의 과다 시용에 따른 주변환경의 수질 및 토양오염 문제로 인하여 토양 분석 및 작물의 엽분석을 통해서 정확한 질소 함량을 파악해 적정시비를 하는 과학영농이 농촌진흥청 및 산하기관을 통해서 이루어지고 있다(http://soil.rda.go.kr). 보통 토양 및 작물의 질소함량은 총질소 농도를 측정하여 모니터링하는데(Herrmann and Taube, 2004; Rostami et al., 2008), 대표적으로 Kjeldahl법과 원소분석기를 이용하여 질소의 양을 정밀하게 분석한다. 그러나 이 방법은 시료의 파쇄를 통해서 이루어지며 또한 상당한 시간 및 비용이 소요된다. 그래서 SPAD 502 chlorophyll meter(Konica Minolta Sensing, Japan)와 같은 광학측정 장비를 이용해 비파괴적인 방법으로 작물의 질소함량을 측정하는 것이 대중화되었다(An et al., 2020; Rostami et al., 2008).
SPAD meter는 650 및 940 nm 파장의 빛을 이용해 잎에서 적색광 및 적외선의 광 투과 강도를 측정한다(Yuan et al., 2016). 이에 기반해 측정된 값은 잎의 엽록체 함량에 비례하여 계산되며(Pérez-Patricio et al., 2018; Xiong et al., 2015), 엽록체 함량이 높을수록 잎의 질소농도도 높아지게 된다. 이러한 근거를 바탕으로 SPAD 측정값과 질소함량 간의 상관관계를 이용해 다양한 작물의 질소함량 추정 연구가 이루어졌다(Brunetto et al., 2012; Kitonga-Mwanza et al., 2011; Zakeri et al., 2015)
본 연구에서는 만감류인 ‘부지화’를 대상으로 잎의 질소함량과 SPAD 측정값간의 상관관계를 바탕으로 다양한 머신러닝 모델을 적용하여 SPAD 측정값으로 잎의 질소함량을 추정하였다.
재료 및 방법
시험재료 및 질소함량 측정
3년생 ‘부지화’(Shiranuhi)를 하우스 내에 설치된 수경재배 시스템에 재식하고 6개월 정도 정상적인 생육을 확인한 후 시험재료로 활용하였다. 6개월간의 재배 기간 중 칼슘 결핍에 의한 잎의 괴사를 방지하기 위해 0.2% 질산칼슘을 3일 간격으로 엽면시비하였다. 질소결핍구는 잎이 발생한 지 20일이 지난 후부터 질소만 제외된 양액을 공급하였다. 대조구는 SPAD측정을 시작한 20일부터 120일까지 계속 모든 양분이 양액을 통해 공급되었다. 두 처리구는 나무의 생존여부에 따라 2-4반복으로 수행되었다. 잎의 엽록체 함량 측정은 SPAD-502 chlorophyll meter(Konica Minolta Sensing, Japan)을 이용해 측정하였다.
질소함량 분석을 위해 채취한 잎을 증류수로 세척하고 70°C에서 24시간 건조시킨 후 분쇄하였다. 잎의 질소함량은 시료 0.5 g을 켈달플라스크에 정확히 취하고 H2SO4-H2O2법으로 분해시킨 후 Kjeldahl법으로 정량하였다(NIAST, 2000).
머신러닝 알고리즘(machine learning algorithms)
6종의 머신러닝 알고리즘을 이용하여 ‘부지화’ 잎의 질소함량을 추정하는 모델을 구현하고 그 성능평가를 수행하였다. 사용한 머신러닝 알고리즘은 Stochastic Gradient Descent(SGD), Artificial Neural Network(ANN), Support Vector Machine(SVM), k-Nearest Neighbors(kNN), Random Forest(RF), Gradient Boosting(GB)이었다. 데이터 분석은 R 프로그램(ver. 4.1.2, R foundation for statistical computing, Vienna, Austria)에 다양한 패키지를 설치하여 분석하였다: “sgd” for SGD; “neuralnet” for ANN; “e1071” for SVM; “caret” for kNN; “randomForest” for RF; “xgboost” for GB. 직선회귀 및 다항회귀분석은 다른 패키지 설치없이 R 프로그램만으로 분석하였다.
본 실험에 사용된 SPAD 측정값 및 실제 질소함량 데이터는 36개로, 뛰어난 성능의 모델을 구현하기에는 충분하지 않았다. 그래서 부트스트랩핑(bootstrapping) 방법을 이용해 데이터를 증폭한 후 회귀분석 및 머신러닝 모델에 적용하였다. 부트스트랩핑은 통계학에서 널리 사용되는 기법으로, 기존 데이터에서 N개의 데이터를 복원추출(random sampling)하여 평균한 값을 새로운 데이터로 사용하고, 이러한 과정을 여러 번 반복하여 기존의 데이터를 증폭시킨다(Kim et al., 2021). 특히 부트스트랩핑은 독립변수와 종속변수가 선형관계에 있을 때 회귀분석에서 가장 유의미한 결과를 도출할 수 있기 때문에(Kim et al., 2021), 본 연구에서는 SPAD 측정값과 잎의 질소함량간의 선형관계를 확인한 후 사용하였다. 증폭된 데이터는 학습(training) 시에만 사용하였고, 테스트에는 본래 데이터만으로 시험하였다.
모델의 파라미터 설정
머신러닝 모델의 예측성능을 높이기 위해서는 각 모델의 하이퍼 파라미터를 적절하게 설정하는 것이 매우 중요하다. SGD의 경우, ε(데이터와 경계함수 사이의 거리)을 0.1로 설정하여 분석하였다. ANN 모델은 활성화 함수는 ReLU, 최적화 함수는 Adam, 은닉층의 개수는 100으로 하였을 때 가장 높은 결정계수(R2)를 보여주었다. SVM은 예측값을 근사하는 추정함수를 설정하는 kernel로 linear, polynomial, sigmoid, radial 네 가지가 있는데, 본 연구에서는 radial을 사용하였다. kNN 모델에서는 neighbor의 개수인 k를 3에서 10으로 조절한 결과, 5일 때 가장 효과적이었다. RF는 의사결정 트리의 개수를 5로 정하였고, GB의 트리는 100, 학습률은 0.1로 설정하여 분석하였다.
결과 및 고찰
‘부지화’의 질소 결핍구와 대조구의 잎을 대상으로 측정한 SPAD 값과 실제 잎의 질소함량간의 상관관계를 바탕으로, ‘부지화’ 잎의 실제 질소함량 측정치와 각 모델의 예측치 간의 산포도를 작성하였다(Fig. 1). x축은 실제 질소함량을, y축은 각 모델을 이용해 예측한 값을 나타낸다. 모델의 성능을 평가하는 지표인 평균제곱오차(mean square of errors, MSE), 평균제곱오차제곱근(root mean square of errors, RMSE), 평균절대오차(mean absolute of errors, MAE) 및 결정계수(coefficient of determination, R2)는 Tables 1 and 2에 표시하였다. 설명변수인 SPAD 측정값과 반응변수인 질소함량 사이에는 먼저 가장 간단한 선형관계가 있음을 확인할 수 있다(Fig. 1A). 선형회귀식에서 데이터의 분포가 멀어질수록 실제 데이터와 예측 데이터 간의 오차가 커 모델의 예측 정확도가 떨어지는 것을 알 수 있다. 이 선형회귀모델의 R2는 학습 시 0.546, 테스트 시 0.635로, 뛰어난 성능의 모델로 볼 수 없으며, MSE, RMSE, MAE의 수치도 다른 모델에 비해 높았다. 특히 이 직선회귀모델은 질소함량이 1.0%이하로 낮은 경우에는 음의 값으로 예측하고 있어 ‘부지화’ 잎의 질소함량을 추정하기에는 적합치 않은 모델로 평가되었다.
Table 1.
Table 2.
다항회귀분석(polynomial regression)을 수행한 결과, Fig. 1B와 같이 2차 다항식일 때 R2가 가장 높았다. 직선회귀모델보다 다소 개선된 평가지표를 보여주었으나, 직선회귀모델과 마찬가지로 질소함량이 1.0% 내외일 때 실측치와 예측치 간의 오차가 커졌으며, 실제 질소함량이 매우 높은 경우, 즉 회귀식의 꼭짓점인 3.071 이상의 값은 실제 값보다 낮게 측정되는 문제가 발생하였다.
다음으로는 머신러닝 모델 6종류를 이용하여 ‘부지화’ 잎의 질소함량을 추정하였다(Fig. 1). SGD는 Tables 1 and 2의 성능지표를 고려하였을 때, 직선회귀모델과 거의 같은 성능을 보여주어 뛰어나지 않은 모델로 판단되었다. ANN은 다항회귀모델보다 더 개선된 성능을 보여주었으나(R2 = 0.795, 0.821), SVM을 비롯한 다른 모델들이 모두 R2이 0.9 이상을 넘기 때문에 ANN보다 더 뛰어난 예측 성능을 보여주었다. 심지어 RF와 GB는 training dataset으로 학습 시에도 R2가 0.9 이상으로 나와 뛰어난 성능의 모델임이 확인되었다(Table 1). Fig. 1의 SVM, kNN, RF, GB 순서로 그래프를 비교하면, 회귀식을 기준으로 실측치와 예측치 간의 오차가 점점 줄어드는 것을 알 수 있으며, MSE, RMSE, MAE도 점점 작아져 0에 가까워지고 선형관계는 점점 높아지는 것을 확인할 수 있다. 즉, GB모델이 가장 뛰어난 예측성능을 보여주었다.
본 연구에서는 ‘부지화’ 잎의 SPAD 값과 질소함량 간에 선형관계가 있음을 바탕으로 여러 머신러닝 모델을 적용해 보았다. 그러나 학습용 데이터의 사이즈가 너무 작아 bootstrapping을 통해서 데이터를 증폭하여 학습을 수행하였다. 비록 bootstrapping이 기존 데이터에서 N개의 데이터를 복원추출(random sampling)하여 평균한 값을 새로운 데이터로 이용하는 통계방법이지만, 데이터의 평균값 근처의 분포가 극도로 높아지는 결과를 유도하여 실제모델과 차이가 생길 여지가 충분하다고 생각되었다. 따라서 추후 연구에서는 SPAD 측정값 데이터와 실제 잎의 질소함량 측정 데이터를 더욱 대량으로 확보하여 분석할 필요가 있는 것으로 판단되었다.