Pangkalan Data Korpus terdiri daripada Sistem Korpus dan Data Korpus.
Sistem Korpus
Sistem Korpus merupakan perisian yang dibangunkan oleh kumpulan penyelidik Unit Terjemahan Melalui Komputer di Universiti Sains Malaysia dalam rangka kerjasama USM-DBP berlandaskan Memorandum Persefahaman yang termeterai pada 1993.
Sistem korpus ini dilengkapi kemudahan untuk mencapai bentuk-bentuk kata, kata terbitan dan rangkai kata dan memaparkan hasil carian tersebut dalam bentuk baris-baris konkordans, dengan kata kunci carian tersusun dan terisih di tengah-tengah baris. Pencarian berdasarkan kata kunci ini boleh dibuat melalui pelbagai teknik carian, sesuai dengan maklumat yang ingin disarikan dan diperagakan. Teknik carian yang lazim adalah seperti yang berikut;
a) Capaian melalui Kata Kunci (Bentuk Kata)
Sesuatu bentuk kata boleh dicapai dengan menaipkan kata tersebut. Misalnya, capaian yang menggunakan kata kunci “kata” akan memaparkan semua kehadiran bentuk ini dalam sesuatu korpus teks. (Lihat contoh paparan skrin)
Capaian Melalui Kata Kunci


b) Capaian melalui Kata Kunci serta simbol bebas ” * ” dan ” ? “
Pencapaian sesuatu bentuk kata boleh juga dilaksanakan dengan menggunakan kata kunci serta simbol bebas ” * ” dan ” ? ” (dengan ” * ” mewakili satu atau lebih aksara manakala ” ? ” mewakili satu aksara).
Capaian melalui Kata Kunci serta simbol bebas �*� dan �?�


Sebagai contoh, pencarian dengan kata kunci “kata” akan memaparkan bentuk-bentuk seperti “kata, “perkataan”, “berkata” dan sebagainya.(Lihat contoh paparan skrin)
Pencarian dengan kata kunci “b?t?l” akan memaparkan bentuk-bentuk seperti “botol”, “batal”, “betul” dan sebagainya. (Lihat contoh paparan skrin)
Pencarian dengan kata kunci �b?t?l�


Analisis Teks
Sistem korpus ini juga dilengkapi dengan modul untuk menganalisis teks (dikenali sebagai MATA, Malay Text Analysis) yang mampu menghasilkan statistik tentang sesebuah teks seperti yang berikut:
(a) Bilangan perkataan
(b) Kekerapan perkataan
(c) Bilangan dan senarai kata akar
(d) Bilangan dan senarai kata baru, dan
(e) Bilangan dan senarai kata tak sahih.
Data Korpus
Takrifan
Secara umum, korpus boleh ditakrifkan sebagai “himpunan makalah (tulisan dsb) mengenai sesuatu perkara tertentu atau kumpulan bahan untuk kajian (seperti kumpulan contoh penggunaan kata dll)” (Kamus Dewan Edisi Ketiga, 1994). Namun demikian, dalam linguistik moden, “korpus” mempunyai pengertian tambahan sebagai bahan yang “terbacakan dan terolahkan komputer”.
Ini bermakna korpus yang dikumpulkan dan diselenggarakan dalam projek ini merupakan kumpulan teks digital yang boleh diproseskan dengan teknik dan kaedah linguistik komputeran untuk menampilkan pola dan hubung kait sesuatu perkataan dengan perkataan lain.
Data
Data korpus boleh bersumberkan bentuk tulisan atau lisan. Bagaimanapun, usaha semasa program ini masih tertumpu pada bahan tulisan daripada buku, majalah, surat khabar, monograf, dokumen, kertas kerja, surat, risalah dan sebagainya.
Setiap jenis wacana ini dikumpulkan dalam subkorpus yang berasingan. Saiz mutakhir (sehingga 25 November 2008) Pangkalan Data Korpus adalah lebih kurang 135 juta perkataan yang terkandung dalam sepuluh subkorpus seperti yang berikut:
Bil | Subkorpus | Jumlah Semasa | Jenis Bahan |
1. | Buku | 31,580,305 | novel, buku ilmiah, buku umum, buku teks |
2. | Majalah | 14,406,888 | umum meliputi pelbagai bidang |
3. | Akhbar | 80,029,347 | harian, tabloid,mingguan |
4. | Terjemahan (buku) | 2,021,191 | buku ilmiah, buku umum |
5. | Efemeral | 290,207 | risalah, brosur, iklan |
6. | Drama | 404,176 | drama yang dibukukan |
7. | Puisi | 116,428 | puisi yang dibukukan |
8. | Kad Bahan | 3,130,641 | kad kutipan untuk penyusunan Kamus Dewan |
9. | Teks Tradisional | 2,825,329 | Teks lama dalam bentuk hikayat, cerita rakyat |
10. | Buku Teks | 1,095,726 | Buku Teks Peringkat Rendah dan Menengah |
Matlamat Dan Hasil- Hasil Kajian Berdasarkan Korpus
Pangkalan ini dibina dengan tujuan untuk menyediakan data penyelidikan yang dapat
dimanfaatkan untuk penyusunan kamus, penyelidikan tatabahasa, dan bentuk-bentuk kajian kebahasaan yang lain. Contoh-contoh kajian yang dilakukan berdasarkan korpus dapat dilihat dalam kertas kerja yang berikut.
Bil | Kertas Kerja | Catatan |
1 | Perempuan, Wanita Dan …..: Satu kajian hubungan leksikal berdasarkan korpus | (Dibentangkan dalam Seminar Perkamusan Melayu pada 20 dan 21 Disember 1994 di Balai Seminar, Dewan Bahasa dan Pustaka) |
2 | Ianya benar | (Dibentangkan dalam Persidangan Antarabangsa Pengajian Melayu/Indonesia : Ancangan Pembingkas Berdaya Cipta pada 21-23 Jun 1999 di Prince of Songkla University, Pattani,Thailand) |
3 | Melayari Samudera Maya, Mencari Mutiara Kata: Suatu Metodologi Pemerolehan Kata Baru Berdasarkan Korpus | (Dibentangkan dalam Persidangan Linguistik Asean 1 pada 14-16 November 2000 di Universiti Kebangsaan Malaysia) |
4 | KIM VS KIM: Kajian Leksis Berdasarkan Analisis Teks Selari | (Dibentangkan dalam Seminar Sehari Jabatan Bahasa Melayu dan Terjemahan pada 7 Februari 2001 di Universiti Kebangsaan Malaysia) |
5 | Istilah Sains Dalam Teks Bacaan Umum | (Diterbitkan dalam Jurnal Rampak Serantau Bil. 8 2001) |
6 | Penggunaan Istilah Teknologi Maklumat dan Komunikasi: Suatu Kajian Berdasarkan Teks Akhbar Harian | (Dibentangkan dalam Seminar Cabaran dan Penulisan Sains dan Teknologi Dalam Alaf Baru pada 25 – 26 April 2001 di Universiti Kebangsaan Malaysia) |
7 | Soal Hati: Suatu Kajian Korpus | (Dibentangkan dalam Konvensyen Bahasa Kebangsaan 2001 pada 2 – 4 Mei 2001 di Hotel Nikko, Kuala Lumpur) |
8 | Yang Selari dan Yang Setanding: Peranan Korpus dalam Penterjemahan |
(Dibentangkan dalam Persidangan Penterjemahan Antarabangsa Ke-8 pada 3?5 September 2001 di Langkawi, Kedah) |
9 | Baik Buruk Byte dan Bait | Diterbitkan dalam Jurnal Rampak Serantau Bil. 9 2002) |
10 |
‘PUN’, Kepelbagaian Makna Berdasarkan Teks Sejarah Melayu |
Dibentangkan dalam Sanggar Leksikologi dan Leksikografi Bahasa Melayu pada 16 – 17 Disember 2002 di Universitas Indonesia, Depok, Jakarta, Indonesia |
Yang Dini dan Yang Kini:Kisah Dua Naskhah | Dibentangkan dalam Sanggar Leksikologi dan Leksikografi Bahasa Melayu pada 16 – 17 Disember 2002 di Universitas Indonesia, Depok, Jakarta, Indonesia | |
11 | Pengkomputeran Bahasa Melayu:Kegiatan, Kerjasama dan Kemajuan | Dibentangkan dalam Seminar “Membawa Indonesia ke era Globalisasi Melalui Teknologi Bahasa, Komunikasi dan Informasi” pada 18 September 2003 di Penerapan dan Penelitian Teknologi (BBPT), Jakarta, Indonesia |
12 | Pangkalan Data Korpus DBP: Perancangan, Pembinaan dan Pemanfaatan |
Dibentangkan dalam Seminar Sehari Linguistik “Nahu Praktis Bahasa Melayu:Analisis Data Korpus” pada 30 Mac 2004 di Universiti Kebangsaan Malaysia |
13 | Kesejagatan Bahasa Melayu Melalui Teknologi | Diterbitkan dalam Majalah Dewan Bahasa Mac 2004 |
14 | Bahasa Sukuan: Suatu Kajian Analisis Terhadap Pengaruhnya dalam Bahasa Melayu | Dibentangkan dalam Persidangan Antarabangsa ATMA dan IKON Universiti Kebangsaan Malaysia “The Languages and Literatures of Western Borneo: 144 Years of Research pada 31 Januari hingga 2 Februari 2005 di Universiti Kebangsaan Malaysia |
15 | Analisis -ik, -ikal dan -is dalam bahasa Melayu berdasarkan data korpus | Dibentangkan dalam Seminar Kebangsaan Linguistik “Kajian Bahasa dan Korpus:Dimensi Linguistik Semasa” pada 12 -13 April 2005 di Universiti Kebangsaan Malaysia |
16 | Suara sasterawan, suara awam | Dibentangkan dalam Seminar Kebangsaan Linguistik “Kajian Bahasa dan Korpus:Dimensi Linguistik Semasa” pada 12 -13 April 2005 di Universiti Kebangsaan Malaysia |
17 | Sinonim Tetapi Tidak Seerti | Diterbitkan dalam Majalah Pelita Bahasa Mei 2005 |
18 | Lexical Associations of Malayness in Hikayat Abdullah: A Collocational Analysis | Diterbitkan di dalam Research Journal of Applied Sciences 5(6): 429-433, 2010. ISSN: 1815-932X. Medwell Journals, 2010 |
Tarikh kemas kini : Isnin, 25 Julai 2022