Bioinformatika
Definisi
Bioinformatika (bahasa Inggris: bioinformatics) adalah
ilmu yang mempelajari penerapan teknik komputasional untuk mengelola dan menganalisis
informasi biologis. Bidang ini mencakup penerapan metode-metode matematika,
statistika, dan informatika untuk memecahkan masalah-masalah biologis, terutama
dengan menggunakan sekuens DNA dan asam amino serta informasi yang berkaitan
dengannya. Contoh topik utama bidang ini meliputi basis data untuk mengelola
informasi biologis, penyejajaran sekuens (sequence alignment), prediksi
struktur untuk meramalkan bentuk struktur protein maupun struktur sekunder RNA,
analisis filogenetik, dan analisis ekspresi gen.
Sejarah
Istilah bioinformatics mulai dikemukakan pada pertengahan era 1980-an untuk
mengacu pada penerapan komputer dalam biologi. Namun demikian, penerapan
bidang-bidang dalam bioinformatika (seperti pembuatan basis data dan
pengembangan algoritma untuk analisis sekuens biologis) sudah dilakukan sejak
tahun 1960-an.
Kemajuan teknik biologi
molekular dalam mengungkap sekuens biologis dari protein (sejak awal 1950-an)
dan asam nukleat (sejak 1960-an) mengawali perkembangan basis data dan teknik
analisis sekuens biologis. Basis data sekuens protein mulai dikembangkan pada
tahun 1960-an di Amerika Serikat, sementara basis data sekuens DNA dikembangkan
pada akhir 1970-an di Amerika Serikat dan Jerman (pada European Molecular
Biology Laboratory, Laboratorium Biologi Molekular Eropa). Penemuan teknik
sekuensing DNA yang lebih cepat pada pertengahan 1970-an menjadi landasan
terjadinya ledakan jumlah sekuens DNA yang berhasil diungkapkan pada 1980-an
dan 1990-an, menjadi salah satu pembuka jalan bagi proyek-proyek pengungkapan
genom, meningkatkan kebutuhan akan pengelolaan dan analisis sekuens, dan pada
akhirnya menyebabkan lahirnya bioinformatika.
Perkembangan Internet juga
mendukung berkembangnya bioinformatika. Basis data bioinformatika yang
terhubung melalui Internet memudahkan ilmuwan mengumpulkan hasil sekuensing ke
dalam basis data tersebut maupun memperoleh sekuens biologis sebagai bahan
analisis. Selain itu, penyebaran program-program aplikasi bioinformatika
melalui Internet memudahkan ilmuwan mengakses program-program tersebut dan
kemudian memudahkan pengembangannya.
Penerapan utama bioinformatika
Basis data sekuens biologis
Sesuai dengan jenis informasi
biologis yang disimpannya, basis data sekuens biologis dapat berupa basis data
primer untuk menyimpan sekuens primer asam nukleat maupun protein, basis data
sekunder untuk menyimpan motif sekuens protein, dan basis data struktur untuk
menyimpan data struktur protein maupun asam nukleat.
Basis data utama untuk sekuens
asam nukleat saat ini adalah GenBank (Amerika Serikat), EMBL (Eropa), dan
DDBJ(Inggris) (DNA Data Bank of Japan, Jepang). Ketiga basis data tersebut
bekerja sama dan bertukar data secara harian untuk menjaga keluasan cakupan
masing-masing basis data. Sumber utama data sekuens asam nukleat adalah submisi
langsung dari periset individual, proyek sekuensing genom, dan pendaftaran
paten. Selain berisi sekuens asam nukleat, entri dalam basis data sekuens asam
nukleat umumnya mengandung informasi tentang jenis asam nukleat (DNA atau RNA),
nama organisme sumber asam nukleat tersebut, dan pustaka yang berkaitan dengan
sekuens asam nukleat tersebut.
Sementara itu, contoh beberapa
basis data penting yang menyimpan sekuens primer protein adalah PIR (Protein
Information Resource, Amerika Serikat), Swiss-Prot (Eropa), dan TrEMBL (Eropa).
Ketiga basis data tersebut telah digabungkan dalam UniProt (yang didanai
terutama oleh Amerika Serikat). Entri dalam UniProt mengandung informasi
tentang sekuens protein, nama organisme sumber protein, pustaka yang berkaitan,
dan komentar yang umumnya berisi penjelasan mengenai fungsi protein tersebut.
BLAST (Basic Local Alignment
Search Tool) merupakan perkakas bioinformatika yang berkaitan erat dengan
penggunaan basis data sekuens biologis. Penelusuran BLAST (BLAST search) pada
basis data sekuens memungkinkan ilmuwan untuk mencari sekuens asam nukleat
maupun protein yang mirip dengan sekuens tertentu yang dimilikinya. Hal ini
berguna misalnya untuk menemukan gen sejenis pada beberapa organisme atau untuk
memeriksa keabsahan hasil sekuensing maupun untuk memeriksa fungsi gen hasil
sekuensing. Algoritma yang mendasari kerja BLAST adalah penyejajaran sekuens.
PDB (Protein Data Bank, Bank
Data Protein) adalah basis data tunggal yang menyimpan model struktural tiga
dimensi protein dan asam nukleat hasil penentuan eksperimental (dengan
kristalografi sinar-X, spektroskopi NMR dan mikroskopi elektron). PDB menyimpan
data struktur sebagai koordinat tiga dimensi yang menggambarkan posisi
atom-atom dalam protein ataupun asam nukleat.
Penyejajaran sekuens
Penyejajaran
sekuens (sequence alignment) adalah proses penyusunan/pengaturan dua atau lebih sekuens sehingga
persamaan sekuens-sekuens tersebut tampak nyata. Hasil dari proses tersebut
juga disebut sebagai sequence alignment atau alignment saja. Baris sekuens
dalam suatu alignment diberi sisipan (umumnya dengan tanda "–")
sedemikian rupa sehingga kolom-kolomnya memuat karakter yang identik atau sama
di antara sekuens-sekuens tersebut. Berikut adalah contoh alignment DNA dari
dua sekuens pendek DNA yang berbeda, "ccatcaac" dan
"caatgggcaac" (tanda "|" menunjukkan kecocokan atau match
di antara kedua sekuens).
ccat---caac
| ||
||||
caatgggcaac
Sequence alignment merupakan
metode dasar dalam analisis sekuens. Metode ini digunakan untuk mempelajari
evolusi sekuens-sekuens dari leluhur yang sama (common ancestor).
Ketidakcocokan (mismatch) dalam alignment diasosiasikan dengan proses mutasi,
sedangkan kesenjangan (gap, tanda "–") diasosiasikan dengan proses
insersi atau delesi. Sequence alignment memberikan hipotesis atas proses
evolusi yang terjadi dalam sekuens-sekuens tersebut. Misalnya, kedua sekuens
dalam contoh alignment di atas bisa jadi berevolusi dari sekuens yang sama
"ccatgggcaac". Dalam kaitannya dengan hal ini, alignment juga dapat menunjukkan
posisi-posisi yang dipertahankan (conserved) selama evolusi dalam
sekuens-sekuens protein, yang menunjukkan bahwa posisi-posisi tersebut bisa
jadi penting bagi struktur atau fungsi protein tersebut.
Selain itu, sequence alignment
juga digunakan untuk mencari sekuens yang mirip atau sama dalam basis data
sekuens. BLAST adalah salah satu metode alignment yang sering digunakan dalam
penelusuran basis data sekuens. BLAST menggunakan algoritma heuristik dalam
penyusunan alignment.
Beberapa metode alignment lain yang
merupakan pendahulu BLAST adalah metode "Needleman-Wunsch" dan
"Smith-Waterman". Metode Needleman-Wunsch digunakan untuk menyusun
alignment global di antara dua atau lebih sekuens, yaitu alignment atas
keseluruhan panjang sekuens tersebut. Metode Smith-Waterman menghasilkan
alignment lokal, yaitu alignment atas bagian-bagian dalam sekuens. Kedua metode
tersebut menerapkan pemrograman dinamik (dynamic programming) dan hanya efektif
untuk alignment dua sekuens (pairwise alignment)
Clustal adalah program bioinformatika
untuk alignment multipel (multiple alignment), yaitu alignment beberapa sekuens
sekaligus. Dua varian utama Clustal adalah ClustalW dan ClustalX.
Metode lain yang dapat
diterapkan untuk alignment sekuens adalah metode yang berhubungan dengan Hidden
Markov Model ("Model Markov Tersembunyi", HMM). HMM merupakan model
statistika yang mulanya digunakan dalam ilmu komputer untuk mengenali
pembicaraan manusia (speech recognition). Selain digunakan untuk alignment, HMM
juga digunakan dalam metode-metode analisis sekuens lainnya, seperti prediksi
daerah pengkode protein dalam genom dan prediksi struktur sekunder protein.
Referensi:
Komentar