4. Обсуждение
4.1. Оценка оптимальной гиперспектральной характеристики
Чувствительные характеристики, извлеченные SIPLS-SPA, составляли 706, 724, 734, 806, 808, 810, 812 и 816 нм, что согласуется с тем, что было обнаружено в более ранних исследованиях (Yoder and Waring, 1994). 706, 724 и 734 нм относятся к красной области и являются основными полосами поглощения фотосинтеза зеленолистными растениями. Было обнаружено, что существует сильная корреляция между коэффициентом отражения в красной области (550–750 нм) и биомассой растительности (Todd et al., 1998). 806, 808, 810, 812 и 816 нм относятся к NIR-области, для которой поглощение энергии света постепенно уменьшается по мере того, как начинает увеличиваться отражение. Сообщалось, что коэффициент отражения в NIR более чувствителен к биомассе растений (Hansen and Schjoerring, 2003). По сравнению с исследованиями, упомянутыми выше, чувствительная функция, выбранная SIPLS-SPA, расположена как на красной границе, так и в области NIR. Наиболее правдоподобным объяснением этого результата является то, что коэффициент отражения в NIR более чувствителен к биомассе листьев пшеницы. Чувствительная особенность, полученная с помощью SIPLS-SPA в этом исследовании, может быть полезна для разработки портативных приборов или полевых датчиков для мониторинга состояния роста сельскохозяйственных культур в точном земледелии.
4.2. Оценка метода SIPLS-SPA
Теоретически и SIPLS, и SPA работают с дополнительными преимуществами, но каждый из них имеет определенные недостатки. Хотя SIPLS может помочь выбрать эффективные и стабильные спектральные интервалы, или, например, красный край был спектральным интервалом для получения достойной модели, SIPLS может сохранять бесполезную и коллинеарную информацию в небольших подинтервалах (Kang et al., 2016). SPA — это новый алгоритм выбора переменных, который решает проблемы коллинеарности и использует простую операцию проекции в векторном пространстве для выбора подмножеств переменных с минимальной коллинеарностью (Araújo et al., 2001). Но переменные с низким значением S/N могут быть выбраны SPA, что также может повлиять на производительность модели. К счастью, недостатки этих двух методов можно компенсировать друг другом. Таким образом, SIPLA-SPA, объединяющая SIPLS и SPA, позволяет не только выбрать меньшее количество несвязанных и коллинеарных переменных, но и значительно упростить калибровочную модель, повысить ее точность и стабильность. По этой причине гибридная модель SIPLS-SPA может получать стабильные, надежные и воспроизводимые чувствительные переменные, которые минимально избыточны для гибридной модели оценки (Ouyang et al., 2015).
Чтобы проверить, охватывает ли выбранная чувствительная функция большую часть информации о полном спектре, не пропуская при этом некоторую важную информацию для мониторинга биомассы листьев пшеницы, в этом исследовании сравнивалась установленная модель PLSR с использованием выбранной функции с моделью с использованием полных длин волн (таблица 5). Точность модели PLSR, основанной на чувствительном признаке, выбранном SIPLS-SPA, была аналогична точности для полных длин волн. Однако стабильность и практичность моделей PLSR, включающих чувствительный признак, выбранный SIPLS-SPA, были лучшими, что позволяет предположить, что модель, построенная SIPLS-SPA, работала более стабильно. В значительной степени эти результаты убедительно показали, что чувствительные переменные, извлеченные с помощью SIPLS-SPA, могут представлять основную информацию о полных длинах волн для этого исследования.
В предыдущих исследованиях, в отличие от моделей, основанных на всех полосах, подмножество предикторов не всегда давало лучшие результаты с точки зрения точности предсказания. В некоторых исследованиях было возможно, что они работают одинаково, например, в настоящем исследовании и при сравнении с ВИ (Hansen and Schjoerring, 2003; Montesinos-López et al., 2017). Иногда использование выбранных признаков или ансамбля множественного отбора может дать лучшие результаты (Yao et al., 2015). Тем не менее, во всех относительных исследованиях было последовательно, что модели, основанные на выбранном признаке, были более экономичными и более эффективными в вычислительном отношении, поскольку использование предиктора подмножества может уменьшить размерность каналов, а также снизить вычислительные затраты. Таким образом, приемы отбора признаков могут способствовать развитию точного земледелия.
4.3. Факторы, учитываемые при выборе оптимальной функции модели
При выборе оптимального признака или переменных с помощью алгоритма разработки модели обычно учитываются несколько аспектов: точность, надежность и практичность (время обучения, количество параметров, линейность, уровень сложности и вычислительная сложность). В большинстве случаев основное внимание уделяется тому, как добиться высокой точности. Точность калибровочной модели SIPLS-SPA была немного хуже, чем у моделей SIPLS и полных длин волн, но незначительно (таблица 6). Однако надежность модели SIPLS-SPA была наилучшей. Тем не менее, получение наиболее точного прогноза может и не понадобиться. Иногда достаточно устойчивой аппроксимации, в зависимости от целей модели (т. е. того, для чего вы хотите ее использовать). Между тем, использование более приближенных методов, естественно, позволяет избежать переобучения. Для гиперспектральных данных также важно время обучения, которое сильно различается между существующими алгоритмами. Как показано в Таблице 6, время обучения SIPLS-SPA было короче, чем у SIPLS и полных длин волн. Как правило, время обучения часто тесно связано с точностью. Когда время ограничено, это может повлиять на выбор алгоритма, особенно когда набор данных довольно большой. Еще одно соображение заключается в том, что многие алгоритмы машинного обучения предполагают, что модель является линейной, потому что линейная модель проста и может быть быстро стереотипизирована. Алгоритмы линейной регрессии предполагают, что все тренды данных следуют прямой линии, что в некоторых случаях хорошо работает. Однако для данных нелинейного тренда это допущение может привести к большей ошибке и снизить точность модели. Кроме того, на производительность алгоритмов будет влиять количество параметров, таких как устойчивость к ошибкам, количество итераций и время обучения. Обычно алгоритм с большим количеством параметров требует много проб и ошибок, чтобы найти хорошие комбинации. В то время как большее количество параметров сделает алгоритм более гибким, что поможет получить лучшее поведение. Хотя SIPLS-SPA выбрал более чувствительную функцию, чем SPA, меньшую, чем SIPLS, и полные длины волн, но уровень сложности и вычислительная сложность были низкими. Таким образом, SIPLS-SPA может выбрать чувствительный признак, представляющий полные длины волн, благодаря чему установленная модель PLSR в целом работает лучше, чем другие, для мониторинга биомассы листьев пшеницы. Суммируя, при выборе алгоритма мы должны всесторонне рассмотреть все аспекты модели.
5. Заключение
В этом исследовании был предложен недавно разработанный вычислительный метод SIPLS-SPA, объединяющий два метода SIPLS и SPA, для извлечения чувствительных признаков из гиперспектральных изображений для определения биомассы листьев пшеницы. Восемь длин волн (706, 724, 734, 806, 808, 810, 812 и 816 нм), выбранных с помощью ансамблевого метода SIPLS-SPA, считались оптимальными гиперспектральными признаками, которые служат входными переменными для установления PLSR. модель для оценки биомассы листьев озимой пшеницы. Выбранный признак и построенная модель биомассы работали лучше, чем другие современные методы выбора признаков, с меньшим количеством несвязанных, коллинеарных, простых выбранных переменных, а также с меньшей сложностью, меньшей вычислительной сложностью и более коротким временем выполнения. В целом, наши результаты показывают, что SIPLS-SPA является мощным методом выбора гиперспектральных признаков для оценки признаков растений в сельском хозяйстве.