Derlem Dilbilim

Gelişen teknolojiyle birlikte dili incelemek de farklılık kazandı. Bilgisayar Dilbilimi, dil çözümlemelerinde bilgisayarı bir araç olarak kullanmaktadır. Dil incelemeleri ve çözümlemeleri için derlemlerin kullanılması buna bir örnektir. Derlem dilbilim (corpus linguistics) olarak anılan alan doğal dil kullanımlarına dayalı örnekleri alarak dil incelemelerini yapmaktadır. Sırf niteliksel yaklaşımlardan öteye derlem dilbilimi, elektronik ortamda işlenmiş metinleri niceliksel yöntemler kullanarak belirli bir dil kullanımına ait sıklık bilgilerini de sunmaktadır. Biber (1998)’de belirtildiği gibi derlem temelli bir araştırma niteliksel ve niceliksel olmak üzere iki tür bilgiye dayanmaktadır. Derlemler, binlerce veya milyonlarca sözcükten oluşan belirli bir dil kullanımını temsil eden, dil içi ve dil dışı ölçütlerine referans olan araçlardır. Derlem çalışmaları, sözcüklerin belirli dizimler içinde kullanıldığını ve sıklıkla kullanılan sözcüklerin ise belirli eşdizimliliklerinin (collocate) ve kullanımlarının neler olduğunu göstermeye olanak tanımaktadır (Stubbs, 2002). Bu eşdizimlilikler sayesinde veri bir bütün olarak ele alınabilmekte ve kısa zamanda incelenebilmektedir. Öte yandan derlemlerde, uygulanabilirlik açısından çözümlemeler eşdizimlilikler üzerinden yapılmaktadır. Burada dikkat edilmesi gereken nokta, yapılan çalışmanın derlem kullanımına uygun olup olmadığını saptamaktır.

Derlemler, yazılı ve sözlü veriler bir araya getirilerek oluşturulmaktadır. Boyut ve yapı bağlamında derlemler ikiye ayrılmaktadırlar: hazır derlemler (ready-made corpus) ve özelleşmiş derlemler (specialised corpora). Hazır derlemler, çoğunlukla akademik gruplarca oluşturulmakta ve dili bir bütün olarak ele almaktadır. Bunlar, ayrıca bireysel kullanımlara da açıktır. Diğer derlem türü ise küçük boyutlu ve dilde belirli bir türü (genre) içermektedir. Araştırmacı bunu sınırlı bir bağlamdaki dili incelemek amacıyla kendi hazırlamaktadır (Deignan, 2006).

Hazır derlemlere örnek olarak Brown Corpus, Amerikan İngilizcesini içeren 1 milyon sözcükten oluşan ve ilk oluşturulan dil derlemlerinden biridir.  British National Corpus (BNC), İngiliz İngilizcesine yönelik hazırlanmış, %10’u sözlü veriden, %90’ı yazılı veriden oluşan 100 milyon sözcüklük bir derlemdir (Meyer, 2002). Türkçe derlemler ise Türkçe Ulusal Derlemi (TUD) (Aksan vd., 2012). TUD, 50 milyon sözcükten oluşan 1990-2013 yıllarını temsil eden büyük ölçekli ve dengeli bir derlemdir. Metinler topluluğunun derlem olabilmesi için makine tarafından okunabilmesi, özgün metinler içermesi ve bir dili veya dil değişkesini temsil etmesi gerekmektedir (McEnery ve diğ, 2006: 4-5). Ayrıca, derlemin dengeli olması güvenirliğini arttırmaktadır (Hunston, 2008).

Genel olarak derlem dilbilim, daha özelinde ise derlem incelemeleri aşamasında bir diğer önemli konu açımlamadır (annotation). Derlem açımlaması, eklenmiş değer anlamındadır. Bir başka ifadeyle, derlemdeki veriyi, dilbilimsel çözümleme yaparak açık hale getirmek demektir. Açımlanmış derlemden veri çıkarımı açımlanmamış derlemlere kıyasla daha kolaydır. Örneğin, sözcük türü açımlaması yapılmamış bir derlemde İngilizcedeki left (sol) sözcüğünü sıfat olarak derlemden çıkarmak oldukça zordur. Çünkü ortografik olarak left sağ (right) sözcüğüne karşı olarak sıfat, belirteç ya da ad gibi biçemlerinin de olduğu bilinmektedir. Ayrıca, left leave (çıkmak) eyleminin geçmiş zaman ortacı olarak da kullanımları bulunmaktadır. Bu da kullanım açısından zorluk yaratmaktadır.  Açımlama sayesinde bunun gibi bir belirsizliği ortadan kaldırmak mümkündür. Açımlanmış derlemde left örneğindeki gibi kullanım belirsizliğine sebebiyet vermeden aratılan sözcüğün türünü, eklerini vb. gibi arama ölçütlerini seçerek aramayı özelleştirip derlemin istenilen sonucu getirmesi sağlanmaktadır. Açımlanmış derlem, tekrar kullanılabilir bir kaynaktır. Açımlanmış derlemlerde dilbilimsel çözümlemeler açık ve nesneldir (Leech, 1997; McEnery ve diğ., 2006). Bu derlemde düz metinler görünmemektedir. Ancak bazı derlemler (WordSmith, Xaira) metinlerin açımlanmamış biçimlerine erişime izin vermektedir. Açımlama aynı zamanda derlem kullanıcısına dilbilimsel çözümleme dayatmayı da beraberinde getirmektedir. Ancak, kullanıcı kendi yorumlarını da yapabilmektedir. Yukarıda da sözü edildiği gibi, açımlanmış derlemler çok değerlidir ve bu nedenle, bazı derlemler (the Lancester Parsed Corpus, the London-Lund Corpus) hariç, açık erişimli değildir. Derlem açımlama için üç temel yöntem vardır: otomatik, yarı otomatik (insan ve bilgisayar etkileşimiyle) ve el ile (manuel) (Wichman, 2008; McEnery ve diğ., 2006). Otomatik açımlamada, bilgisayar, önceden tanımlanmış kuralları uygulamaktadır. Bu kuralların uygulanmasıyla ortaya çıkan sonuçların hiçbiri yüzde yüz hatasızdır demek doğru olmayacaktır ancak %90-95’in üzerinde başarı ile sonuçları araştırmacıya sunduğu bilinmektedir. Derlem açımlaması en temelde üç farklı türde yapılmaktadır: metin üstveri bilgisi, ortografik ve dilbilimsel açımlamalar. Metin üstveri bilgisi açımlaması, metin yazarının cinsiyeti, yaşı, metnin yayın yılı, metin türü gibi metinle ilgili bilgilerin girilmesini kapsamaktadır. Ortografik açımlama, metin dışı özellikleri içermektedir. Yazılı ya da sözlü veriyi makinece okunabilir hale getirmekten öte dil konuşucularının anlayabileceği gibi kodlamak önemlidir. Bu, roma alfabesi dışındaki Yunanca, Rusça, Japonca gibi diller için roma alfabesiyle oluşturulmuş bir derlemde sorunlara neden olabilmektedir. Ancak son yıllarda pek çok dil için destek sunan UTF-8 karakter kodlaması kullanarak bu diller için oluşturulan veri derlem işleme araçlarıyla uyumlu hale getirilmektedir (McEnery ve diğ., 1996). Dilbilimsel açımlama kendi içinde düzeylere ve biçimlere ayrılmaktadır. Sesbilimsel düzey derlemler, hecelere (sesbilgisel ve sesbirimsel) göre açımlanmaktadır. Biçimbilimsel düzey derlemleri, ek ve kök açısından açımlanmaktadır. Sözcük düzeyinde açımlanan derlemler, sözcük türlerini açımlamaktadır (tagging). Sözdizimsel düzey derlemler, sözdizimsel çözümlemelerle (parsing) açımlamaktadır. Ayrıca, anlambilimsel alanlarda anlambilimsel açımlamalar yapılmaktadır (McEnery ve diğ., 2006).

Basit anlamda işaretleme sözcüklerin türlerinin derlem işleme araçlarının tanıyabileceği şekilde ek bilgilerin derlem verisine kazandırılması anlamını taşır. Hoffman vd. (2008), işaretlemeyi ilgili sözcüğe sözcük türü bilgisi kodunun girilmesi olarak açıklamaktadır. Diğer bir deyişle, işaretleme, sözcüğün dilbilgisel sınıfının belirtilmesi demektir (Leech, 1997:2). Derlem dilbilimin ilk çalışma yapılan dillerinden biri İngilizcedir. İngilizce için oluşturulan ilk derlemlerin, ICAME  (International Computer Archive of Modern and Medieval English), LOB (Lancaster/Oslo-Bergen corpus), SEC (Spoken English Corpus), PoW (the Polytechnique of Wales corpus), Upenn (the University of Pennsylvania corpus), LLC (the London-Lund Corpus), ICE (the International Corpus of English, BNC (the British National Corpus), SCRIBE (the Spoken Corpus Recordings In British English), metinleri dilbilimsel çözümlemelerle zenginleştirildiğinde daha kullanışlı olmaktadırlar (Atwell, 2008).

Derlem dilbilim, doğal dil verisini yani “gerçekleşmiş dili” inceleyerek dilbilimsel çözümlemeler sağlayan ve verinin sıklık bilgisine göre dildeki eğilimlerini betimleyebilmemize yarayan bir yöntemdir. Derlemler, politik metinlerden eğitim materyallerine, bilimsel yazılardan gazete yazılarına oldukça geniş yelpazeye ulaşan çeşitlilikle dil verisinin incelenmesi amacıyla kullanılabilmektedir (Baker, 2006; Meyer, 2002). Bir araştırmacının bu kadar veriyi tek başına bir anda incelemesi mümkün değilken derlemler sayesinde binlerce kullanım verisi araştırmacıya sunulmaktadır. Dolayısıyla araştırmanın sonuçları da derlem büyüklüğü oranında genellemeye gidilmesine olanak tanımaktadır. Burada önemli olan çalışılacak konunun amacına göre ölçütlerin ve kullanılacak derlemin belirlenmesidir. Çalışmanın amacına yönelik doğru derlem tercihi araştırmacının güvenilir ve geçerli sonuçlara ulaşmasını sağlayacaktır. Çünkü oluşturma aşamasında dilbilimsel ölçütü olmayan, dil dışı ölçütleri belirtilmeksizin oluşturulan metin yığınlarını bir araya getirmek derlem demek değildir. Derlem, dili temsil gücü sağlanmış, ölçütleri iyi belirlenmiş güvenirliği olan yöntemi alanyazında son derece net çizilmiş bir biçimde bir araya getirilmiş metinler bütünüdür. Yukarıda anılan tartışmalar derlemlerde göz önünde bulundurulması gereken ve araştırmacıların kullanacakları derlemi belirlerken veya kendi derlemlerini oluştururken dikkat etmesi gereken bazı noktalardır.

Türkçe Derlemler, Başarıları ve Alana Katkıları

Dil derlemi, belli amaçlar temelinde yapılandırılmış metinler bütünüdür. Farklı türlerden yazılı ve sözlü verinin elektronik ortamda bir araya getirilmesiyle oluşturulan milyonlarca sözcükten oluşan derlemler, bu büyük veri üzerinden dil ve dilin olası tüm kullanımlarına ilişkin her konunun sorgulanabileceği veri tabanlarıdır. Bilgisayar teknolojilerindeki hızlı gelişmeler sayesinde gerçek dil kullanımını içeren büyük derlemler oluşturulabilir ve bu derlemler üzerinden yürütülen çalışmalar ile dilin başka yöntem ve araçlarla görülemeyen pek çok önemli özelliği ortaya çıkarılabilir. Günümüzde çok sayıda dilin özel ya da genel amaçlı derlemleri kurulmuş ve kullanıcıların hizmetine sunulmuştur. Türkçe kullanımlarını belirlemede referans olabilecek Türkçe Ulusal Derlemi (TUD) tasarlanmış ve TÜBİTAK tarafından 108K242 proje numarasıyla ile desteklenmiştir (Aksan vd., 2012; Aksan, Özel, Yılmazer, Demirhan, 2016). TUD 50 milyon sözcükten oluşan, %98 yazılı, %2’si sözlü Türkçenin kullanımlarından toplanan örnekleri içeren; veritabanı olabildiğince farklı konu alanı ve metin türlerinden 1990-2013 yıllarına ait örneklerin oluşturduğu dengeli ve dili temsil gücüne sahip bir derlemdir. Derlem verisine erişme ve sorgulama yapmak isteyen kullanıcılar için ağ-tabanlı kullanıcı dostu bir arayüz geliştirilmiştir. Tasarım ölçütleri ve büyüklüğü açısından Türkçe için bir ilk olan TUD hem derlem tasarlama, oluşturma ve son kullanıcıya sunma aşamaları bakımından benzer çalışmalara örnek olduğu hem de derlem temelli araştırmalara önemli katkılar sağladığı için TÜBİTAK 50. Yıl Araştırma Programları Başkanlığı (ARDEB) tarafından Sosyal ve Beşeri Bilimler Araştırma Destek Grubu (SOBAG) alanında Başarı ödülü alarak “Başarı Öyküleri” kataloğunda tanıtılmaya layık görülmüştür. TUD, sadece dilbilimcilerin değil; bilişim, eğitim, Türkçenin güncel kullanımı ve tanıtımı ile ilgili tüm kişi, kurumlar, bilim, eğitim, edebiyat, basın-yayın gibi pek çok Türkçe metin üreten herkesin referans alarak yararlandığı Türkçenin kullanımına ilişkin güncel çeşitlilik, zenginlik ve bilimsel ölçütlere uygun olarak oluşturulmuş referans bir derlemdir.

Türkçe Ulusal Derlemi kapsamında proje ekibinin Türkçeyle ilgili ulusal ve uluslararası birçok bilimsel yayın yapmaktadır. Bilim insanı yetiştirme açısından projenin veri tabanları kullanılarak derlem dilbilimi alanında çok sayıda yüksek lisans ve doktora çalışmaları yapılmaktadır. Türkiyede ilk olarak lisans, yüksek lisans ve doktora düzeyinde derlem dilbilimi dersleri açılmıştır. Türkçe Ulusal Derlemi verisi kullanılarak şimdilerde olduğu gibi gelecekte de Türkçe için önemli çalışmaların ortaya çıkacağı düşünülmektedir.

Temel Kaynakça

Aksan, Y., Aksan, M., Koltuksuz, A., Sezer, T. Mersinli, M., Demirhan, U. U., Yılmazer, H., Kurtoğlu, Ö., Atasoy, G. Öz, S., Yıldız, İ.2012. Construction of the Turkish National Corpus (TNC). Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC 2012). Istanbul: Turkiye. Adress http://www.lrecconf.org/proceedings/lrec2012/pdf/991_Paper.pdf

Aksan, Y., Özel,S. A., Yılmazer, H., & Demirhan U. 2016. The Turkish National Corpus (TNC): Comparing the Architectures of v1 and v2. TurCling 2016, 32-37.

Atwell, E. 2008. Development of tag sets for part of speech tagging. In A.,Lüdeling and M., Kytö (Eds.), Corpus linguistics: An international handbook (501-527). Berlin: Walter de Gruyter.

Baker, P. 2007. Using corpora in discourse analysis. Continuum

Baker, M. C. 2004. Lexical categories. Cambridge University Press.

Biber, D., Conrad, S., Reppen, R. 1998. Corpus linguistics: Investigating language         structure and   use. Cambridge University Press.

Garside, R., Leech, G., and McEnery, A. 1997. Corpus Annotation. London and New York: Longman,

Hoffman, S., Evert, S., Smith, N., Lee, D., Prytz, Y.B. 2008. Corpus linguistics with       BNCweb-a practical guide.  Germany: Peterlang.

Hunston, S. 2008. Collection strategies and design decisions. In A.,Lüdeling and M., Kytö         (Eds.), Corpus linguistics: An international handbook (154-167). Berlin: Walter de Gruyter.

Kennedy, G. 1998. An introduction to corpus linguistics. Longman

Marcus, M. P., Santorini, B., and Marcinkiewicz, M. A. 1993. Building a large annotated corpus of English: The Penn treebank. Computational Linguistics,19(2), 313–330.

McEnery, T., Xiao, R., and Tono, Y. 2006. Corpus-based language studies. Routledge.

McEnery, T., Wilson, A. 1996. Corpus linguistics. Edinburgh University Press.

Meyer, C. 2002. English corpus linguistics: An introduction. Cambridge University Press.

Stubbs, M. 2002. Words and phrases.  Oxford: Blackwell.

Türkçe Ulusal Derlemi Web sayfası: https://www.tnc.org.tr/tr/

TÜBİTAK 50.yıl Araştırma Destek Programları Başkanlığı Başarı Öyküleri (ss.188-189)

Wynne, M. 2008. Searching and concordancing. In A.,Lüdeling and M., Kytö (Eds.),      Corpus linguistics: An international handbook (706-737).Berlin: Walter de Gruyter.