Pekerjaan mengumpulkan data untuk melatih robot bukanlah tugas yang glamor. Startup XDOF, yang resmi diperkenalkan ke publik hari ini, justru melihat potensi besar di balik kerumitan itu. Perusahaan yang berbasis di AS ini mengumpulkan dana dari Thrive Capital, Spark Capital, a16z, Lux, dan WndrCo untuk membangun sistem pengumpulan data, perangkat, dan anotasi yang dibutuhkan laboratorium AI terdepan.
Data Fisik Jadi Batu Sandungan Terbesar AI
Keberhasilan model bahasa besar (LLM) seperti GPT bertumpu pada lautan data teks yang tersedia di internet. Namun, untuk robot yang harus bergerak dan berinteraksi di dunia nyata, data semacam itu nyaris tidak ada. Video YouTube atau rekaman pekerja lepas dinilai berkualitas rendah dan sulit diterjemahkan ke dalam gerakan robot yang presisi.
“Semua laboratorium top sedang mencoba mengejar robotika,” kata Philipp Wu, CEO dan salah satu pendiri XDOF. “Kami sudah melihat konsekuensi dari tertinggal dalam perlombaan model bahasa. Kamu tidak ingin mengalami situasi serupa dengan teknologi ini.” Wu sendiri mengalami masalah ini saat menjadi mahasiswa PhD di UC Berkeley—ia butuh data berskala besar untuk penelitiannya, tetapi data itu tidak ada.
Dari Skripsi Jadi Bisnis: Sistem Teleoperasi Murah
Wu dan CTO Fred Shentu sebelumnya mengembangkan GELLO, sistem teleoperasi murah yang memungkinkan manusia mengendalikan lengan robot dari jarak jauh untuk menghasilkan data pelatihan. Makalah mereka menjadi acuan di dunia robotika karena banyak peneliti menghadapi kendala yang sama. Melihat peluang, mereka bersama COO Nemo Jin meluncurkan XDOF pada Oktober 2024.
Startup ini tidak hanya menjual data mentah. Mereka juga menawarkan pembersihan data, pembuatan perangkat, dan anotasi—menciptakan siklus umpan balik yang terus menyempurnakan data pelatihan robot. “Jika kamu tidak merancang perangkat keras dengan baik sejak awal, data yang terkumpul bisa memiliki masalah spesifik yang tidak kamu duga,” ujar Wu.
ABC: Kumpulan Data Robot Terbesar untuk Akademisi
Sebagai langkah awal, XDOF bermitra dengan laboratorium riset AI UC Berkeley untuk merilis ABC, kumpulan data pelatihan robot berkualitas tinggi yang disebut-sebut sebagai yang terbesar yang pernah ada. Dataset ini mencakup 130.000 lintasan data manipulasi robot, 300 jam simulasi, dan 100 jam evaluasi. Data sebesar ini sebelumnya tidak pernah tersedia untuk kalangan akademisi.
Tim telah menggunakan data tersebut untuk melatih robot melakukan tugas-tugas seperti melipat kaus, meratakan kardus, atau memasukkan AirPods ke dalam wadahnya. “Kami melihat di bidang bahasa, generasi gambar, dan lainnya, ketika model dan data dirilis, komunitas mencapai hal-hal yang tidak terduga,” kata David McAllister, mahasiswa PhD Berkeley yang membantu pengorganisasian rilis data.
Piramida Data dan Rencana Merekrut Ribuan Operator
XDOF bekerja dalam tiga tingkatan piramida data. Tingkat paling berharga adalah data teleoperasi dari robot yang benar-benar akan digunakan. Tingkat kedua adalah robot teleoperasi yang mengumpulkan data umum. Tingkat ketiga adalah data “egosentris” yang dikumpulkan manusia saat melakukan tugas sehari-hari—untuk ini XDOF akan membuat sensor yang bisa dikenakan.
Perusahaan berencana merekrut dan melatih ribuan operator teleoperasi dan operator data egosentris di seluruh dunia. Model padat karya ini memunculkan pertanyaan: mengapa laboratorium besar tidak melakukannya sendiri? “Kamu butuh gudang seluas ratusan ribu kaki persegi dengan ratusan robot. Kamu harus merawat robot, mengkalibrasi parameter fisiknya, dan melatih operator dengan benar,” jelas Wu. Investasi dan skala operasional semacam itu justru lebih efisien jika dialihdayakan—dan itulah pasar yang diincar XDOF.