Корпус языка

Корпус некоторого языка — это, в первом приближении, собрание текстов на этом языке, представленное в электронной форме и снабженное разметкой или аннотацией. Корпус тем лучше, чем полнее и совершеннее его аннотация. Наука о корпусах — это прежде всего наука о том, как сделать хорошую разметку корпуса.

Хорошая разметка, в частности, позволяет быстро и эффективно найти в корпусе те слова, формы и конструкции, которые нужны исследователю. Ведь в обычном тексте нет никаких сведений о грамматической характеристике входящих в него слов и т. д.

Итак, корпус — это электронное собрание текстов, размеченное таким образом, чтобы в нем можно было быстро найти слова и конструкции с заданными грамматическими и другими интересными лингвисту свойствами.

Впервые понятие национального корпуса появилось в названии Британского национального корпуса (British National Corpus, BNC), созданного в 1990-е годы в Великобритании специалистамилексикографами; это не самый первый электронный корпус, созданный в мире, но один из лучших, крупнейших и наиболее известных. Для британцев слово «национальный» означало в первую очередь «характеризующий британский национальный вариант английского языка» (в отличие от американского, австралийского и т. п.), но поскольку этот корпус очень быстро стал практически эталоном корпуса вообще, то значение слова «национальный» незаметно изменилось. Национальным корпусом стали называть просто самый большой и представительный корпус, характеризующий язык данной страны в целом.

Национальный корпус должен быть прежде всего большим: его объем измеряется сотнями миллионов словоупотреблений. Но, кроме того, он должен быть представительным. Иначе говоря, он должен содержать все типы текстов, представленные в данном языке в данный исторический период, и при этом содержать их в правильной пропорции.

Так национальный корпус русского языка не ограничивается только произведениями художественной литературы, сколь бы важны они ни были для изучения русского языка. Он содержит и газетные и журнальные статьи разной тематики, специальные тексты (научные, научно-популярные и учебные по разным отраслям знания), рекламу и частную переписку и дневники. Словом, в корпус попадают образцы практически любого существующего в русском языке письменного дискурса — от статьи современного музыкального критика до инструкции по уходу за кактусами, от рассказов Пелевина до справочника по физике.

Кроме национального корпуса русского языка есть открытый проект развивающийся сообществом OpenCorpora, посвященный созданию корпуса русского языка, доступного целиком и бесплатно каждому желающему.

 

 

25.03.2018









 
архив

подписка