Di blog terakhir kami, kami telah memberi tahu Anda cara kerja alat NLP dan mengapa analisis sintaksis dan semantik perlu dilibatkan secara menyeluruh selama keseluruhan proses. Kami sekarang akan membahas detail tugas dan teknik utama NLP dalam analisis sintaksis dan semantik.
Mesin pada dasarnya tidak mampu menguraikan bahasa manusia tanpa bantuan analisis sintaksis dan semantik — yang tugasnya termasuk memecah bahasa manusia menjadi sesuatu yang dapat dibaca oleh mesin.
Analisis sintaksis mewakili hubungan antara kata-kata pada diagram yang disebut pohon parse—atau tindakan penguraian, singkatnya—sementara analisis semantik mengidentifikasi makna di balik kata-kata tersebut. Di bawah ini adalah beberapa tugas paling umum dari analisis sintaksis dan semantik.
1. Tokenisasi (Tokenization)
Tokenisasi pada dasarnya adalah proses penyederhanaan teks dengan memecah kata menjadi token—unit yang dianggap berguna secara semantik. Bergantung pada skalanya, tokenisasi digunakan untuk membagi kalimat dalam satu teks utuh (sentence tokenization) atau untuk membagi kata dalam satu kalimat (word tokenization).
Contoh: “Saya merasa sangat puas dengan pelayanan yang diberikan oleh hotel ini.”
Token: “Saya” – “merasa” – “sangat” – “puas” – “dengan” – “pelayanan” – “yang” – “diberikan” – “oleh” – “hotel” – “ini”
2. Penandaan sebagian ucapan (penandaan PoS)
Penandaan PoS atau penandaan part-of-speech berfokus pada mengidentifikasi hubungan antar kata untuk memahami makna di balik kalimat. Ini menentukan bagian dari kategori ucapan dari setiap token dalam teks — menandainya dengan label kata kerja, kata keterangan, kata benda, kata ganti, preposisi, dll.
Contoh: “Saya merasa sangat puas dengan pelayanan yang diberikan oleh hotel ini.”
Tags: Saya [pronoun] merasa [verb] sangat [adverb] puas [adjective] dengan [preposition] pelayanan [noun] yang [preposition] diberikan [verb] oleh [preposition] hotel [noun] ini [pronoun]
3. Lemmatisasi dan stemming
Agar mesin memahami bahasa kompleks kita, perlu ada beberapa penyesuaian yang dilakukan pada bentuk kata yang awalnya kita ucapkan atau tulis sebelum diproses. Alat NLP menggunakan lemmatisasi untuk mengubah kata kembali ke bentuk akarnya atau lemmanya—bentuk kata seperti yang muncul di kamus.
Contoh: “memberikan” = beri, “pencarian” = cari, “pepohonan” = pohon
Di sisi lain, stemming mengacu pada pemangkasan kata menjadi bentuk akarnya meskipun kurang akurat dan mungkin tidak selalu benar secara semantik—sehingga lebih disukai daripada lemmatisasi untuk hasil yang lebih cepat dan kompleksitas yang lebih rendah.
Contoh: “kebersamaan, bersama, menyamai, disamakan” = sama
4. Penghapusan stopword
Kata henti (stopword) adalah kata-kata berfrekuensi tinggi yang menambahkan sedikit atau tidak ada nilai semantik pada kalimat seperti which, for, to, is, at, on, dll. Menghapusnya dari teks yang ingin Anda proses menggunakan NLP sangat penting jika Anda ingin mendapatkan hasil bebas noise—terutama saat Anda menangani kumpulan data besar seperti komentar media sosial atau umpan balik pelanggan yang perlu dikategorikan berdasarkan topiknya.
Contoh: “Selamat pagi. Saya mengalami kendala saat sedang melakukan pemesanan tiket.”
Kata henti: selamat, pagi, saya, mengalami, saat, sedang, melakukan
Hasil: kendala pemesanan tiket = topik utama
5. Klasifikasi teks
Klasifikasi teks mungkin merupakan salah satu tugas NLP paling dasar yang membantu mesin memahami data tidak terstruktur dengan menetapkan kategori atau tag yang sesuai ke teks berdasarkan kontennya. Tugas NLP khusus ini populer digunakan dalam analisis sentimen—salah satu layanan yang dimiliki dataxet:sonar.
Contoh:
“Pelayanan CS di sini buruk sekali!” = negatif
“Kecepatan internetnya sepertinya baik-baik saja, sih.” = netral
“Saya sangat menyukai parfum ini.” = positif
Dengan NLP sebagai intinya, dataxet:sonar dapat melakukan analisis sentimen yang lebih komprehensif dan akurat dalam Bahasa Indonesia dengan akurasi hingga 83%—memberi Anda wawasan yang dapat ditindaklanjuti yang dapat membantu perusahaan Anda mendeteksi krisis yang akan datang dan membuat keputusan berdasarkan data.
Hubungi kami untuk demo yang dipersonalisasi.