Dalam era digital saat ini, teknologi pengertian tekstual (NLP) telah menjadi sangat penting dalam menghadirkan berbagai fitur dan aplikasi yang lebih canggih. Salah satu contoh teknologi NLP yang dikembangkan oleh Tencent AI Lab adalah TexSmart, sebuah sistem pengertian teks yang dibangun untuk menganalisis morfologi, sintaks, dan semantics dari teks dalam bahasa Inggris dan Mandarin.
Penggunaan API TexSmart
TexSmart menyediakan API (Application Programming Interface) yang dapat digunakan untuk melakukan analisis teks. Dalam hal ini, pengguna dapat mengirimkan string teks sebagai input ke API dan menerima hasil analisis berupa JSON (JavaScript Object Notation).
Contoh sederhana dari penggunaan API TexSmart adalah sebagai berikut:
{
"str": "he stayed in San Francisco.",
"options": {
"input_spec":{"lang":"auto"},
"word_seg":{"enable":true},
"pos_tagging":{"enable":true,"alg":"log_linear"},
"ner":{"enable":true,"alg":"crf","fine_grained":true},
"syntactic_parsing":{"enable":false},
"srl":{"enable":false}
},
"echo_data":{"request_id":12345}
}
Dalam contoh di atas, field str
berisi teks yang akan dianalisis, sedangkan field options
berisi opsi-opsi analisis yang dapat disesuaikan oleh pengguna. Opsi-opsi ini termasuk word segmentation, part-of-speech tagging, named entity recognition, syntactic analysis, dan semantic role labeling.
Pemanggilan API dalam Batch
Selain melakukan pemanggilan API tunggal, TexSmart juga menyediakan fitur batch call yang memungkinkan pengguna untuk menganalisis beberapa kalimat dalam satu kali panggilan. Contoh input JSON untuk batch call adalah sebagai berikut:
{
"str": [
"上个月30号,南昌王先生在自己家里边看流浪地球边吃煲仔饭。",
"2020年2月7日,经中央批准,国家监察委员会决定派出调查组赴湖北省武汉市,就群众反映的涉及李文亮医生的有关问题作全面调查。",
"John Smith stayed in San Francisco last month."
]
}
Dalam contoh di atas, array str
berisi beberapa kalimat yang akan dianalisis. Hasil analisis akan dikembalikan dalam bentuk JSON yang berisi array hasil analisis untuk setiap kalimat.
Contoh Kode
Berikut adalah contoh kode untuk melakukan pemanggilan API TexSmart menggunakan Python:
import json
import http.client
obj = {"str": "he stayed in San Francisco."}
req_str = json.dumps(obj)
conn = http.client.HTTPConnection("texsmart.qq.com")
conn.request("POST", "/api", req_str)
response = conn.getresponse()
print(response.status, response.reason)
res_str = response.read().decode('utf-8')
print(res_str)
Contoh kode di atas menggunakan modul http.client
untuk melakukan panggilan API dan memperoleh hasil analisis.
Tentang TexSmart
TexSmart adalah sebuah sistem pengertian teks yang dikembangkan oleh NLP Team di Tencent AI Lab. Sistem ini digunakan untuk menganalisis morfologi, sintaks, dan semantics dari teks dalam bahasa Inggris dan Mandarin. TexSmart juga menyediakan beberapa fitur penting seperti recognisi entitas halus, ekspansi semantic, dan ekspresi semantic yang lebih dalam untuk entitas tertentu.
Saya harap artikel ini dapat membantu Anda memahami teknologi pengertian tekstual dari Tencent AI Lab dan bagaimana TexSmart dapat digunakan untuk menganalisis teks.