Лінгвістичний корпус текстів Тараса Шевченка – складова частина ширшого проекту «Корпус української мови», який розробляється та підтримується лабораторією комп’ютерної лінгвістики Інституту філології Київського національного університету імені Тараса Шевченка (керівник проекту – Н. Дарчук).
Матеріалом для корпусу текстів Шевченка послужили його поетичні твори, написані українською мовою. Кожному зі слів у ході автоматичного морфологічного аналізу приписано морфологічні характеристики. А за допомогою морфного сегментатора словоформи поділено на морфи (кореневі, афіксальні).
На основі цієї лінгвістичної інформації користувачі корпусу можуть здійснювати такі типи пошуку у корпусі текстів Тараса Шевченка:
– певних лексем чи словоформ (задаючи в поле пошуку лише його початкові літери чи повну графічну форму);
– слів за морфологічними характеристиками (задаючи параметри частини мови, а для окремих частин мови вказуючи категорії: числа, відмінку, особи тощо);
– кореневих та афіксальних морфів.
Видані результати пошуку можна сортувати за алфавітом або частотою вживання.