Model Bahasa Besar (LLM) boleh menulis artikel persuasif berdasarkan kata-kata pantas, lulus peperiksaan kecekapan profesional dan menulis maklumat mesra pesakit dan empati. Walau bagaimanapun, sebagai tambahan kepada risiko fiksyen, kerapuhan dan fakta tidak tepat yang terkenal dalam LLM, isu lain yang tidak dapat diselesaikan secara beransur-ansur menjadi tumpuan, seperti model AI yang mengandungi "nilai kemanusiaan" yang berpotensi mendiskriminasi dalam penciptaan dan penggunaannya, dan walaupun LLM tidak lagi mengada-adakan kandungan dan menghapuskan hasil keluaran yang jelas berbahaya, "nilai LLM" mungkin masih menyimpang.
Contoh yang tidak terkira banyaknya menggambarkan bagaimana data yang digunakan untuk melatih model AI mengekod nilai individu dan sosial, yang mungkin kukuh dalam model. Contoh-contoh ini melibatkan pelbagai aplikasi, termasuk tafsiran automatik sinar-X dada, klasifikasi penyakit kulit dan membuat keputusan algoritma mengenai peruntukan sumber perubatan. Seperti yang dinyatakan dalam artikel terbaru dalam jurnal kami, data latihan berat sebelah mungkin menguatkan dan mendedahkan nilai dan berat sebelah yang ada dalam masyarakat. Sebaliknya, penyelidikan juga menunjukkan bahawa AI boleh digunakan untuk mengurangkan berat sebelah. Sebagai contoh, penyelidik menggunakan model pembelajaran mendalam pada filem X-ray lutut dan menemui faktor yang terlepas oleh penunjuk keterukan standard (digredkan oleh pakar radiologi) dalam sendi lutut, dengan itu mengurangkan perbezaan kesakitan yang tidak dapat dijelaskan antara pesakit kulit hitam dan putih.
Walaupun semakin ramai orang menyedari kecenderungan dalam model AI, terutamanya dari segi data latihan, banyak titik masuk nilai kemanusiaan yang lain tidak diberi perhatian yang mencukupi dalam proses pembangunan dan penggunaan model AI. AI perubatan baru-baru ini telah mencapai hasil yang mengagumkan, tetapi sebahagian besarnya, ia tidak mempertimbangkan secara eksplisit nilai manusia dan interaksinya dengan penilaian risiko dan penaakulan kebarangkalian, dan tidak juga dimodelkan.
Untuk mengukuhkan konsep abstrak ini, bayangkan anda seorang ahli endokrinologi yang dikehendaki menetapkan hormon pertumbuhan manusia rekombinan untuk budak lelaki berumur 8 tahun yang berada di bawah persentil ke-3 umurnya. Tahap hormon pertumbuhan manusia yang dirangsang oleh budak lelaki itu adalah di bawah 2 ng/mL (nilai rujukan,>10 ng/mL, nilai rujukan bagi kebanyakan negara di luar Amerika Syarikat ialah>7 ng/mL), dan gen pengekodan hormon pertumbuhan manusianya telah mengesan mutasi penyahaktifan yang jarang berlaku. Kami percaya bahawa penggunaan terapi hormon pertumbuhan manusia adalah jelas dan tidak dapat dipertikaikan dalam keadaan klinikal ini.
Penggunaan terapi hormon pertumbuhan manusia dalam senario berikut boleh menyebabkan kontroversi: ketinggian budak lelaki berumur 14 tahun sentiasa berada dalam persentil ke-10 rakan sebayanya, dan kemuncak hormon pertumbuhan manusia selepas rangsangan ialah 8 ng/mL. Tiada mutasi fungsi yang diketahui yang boleh menjejaskan ketinggian, mahupun punca lain yang diketahui untuk bertubuh pendek, dan umur tulangnya ialah 15 tahun (iaitu tiada kelewatan perkembangan). Hanya sebahagian daripada kontroversi adalah disebabkan oleh perbezaan dalam nilai ambang yang ditentukan oleh pakar berdasarkan berpuluh-puluh kajian mengenai tahap hormon pertumbuhan manusia yang digunakan untuk mendiagnosis kekurangan hormon pertumbuhan terpencil. Sekurang-kurangnya kontroversi berpunca daripada keseimbangan manfaat risiko menggunakan terapi hormon pertumbuhan manusia dari perspektif pesakit, ibu bapa pesakit, profesional penjagaan kesihatan, syarikat farmaseutikal dan pembayar. Pakar endokrinologi pediatrik mungkin menimbang kesan buruk yang jarang berlaku daripada suntikan hormon pertumbuhan harian selama 2 tahun dengan kebarangkalian tiada atau hanya pertumbuhan minimum dalam saiz badan dewasa berbanding sekarang. Kanak-kanak lelaki mungkin percaya bahawa walaupun ketinggian mereka hanya boleh meningkat sebanyak 2 cm, ia berbaloi untuk menyuntik hormon pertumbuhan, tetapi pembayar dan syarikat farmaseutikal mungkin mempunyai pandangan yang berbeza.
Kami mengambil eGFR berasaskan kreatinin sebagai contoh, yang merupakan penunjuk fungsi buah pinggang yang digunakan secara meluas untuk mendiagnosis dan menentukan penyakit buah pinggang kronik, menetapkan keadaan pemindahan buah pinggang atau derma, dan menentukan kriteria pengurangan dan kontraindikasi untuk banyak ubat preskripsi. EGFR ialah persamaan regresi mudah yang digunakan untuk menganggarkan kadar penapisan glomerular (mGFR) yang diukur, yang merupakan piawai rujukan, tetapi kaedah penilaian agak rumit. Persamaan regresi ini tidak boleh dianggap sebagai model AI, tetapi ia menggambarkan banyak prinsip tentang nilai manusia dan penaakulan kebarangkalian.
Titik masuk pertama untuk nilai manusia memasuki eGFR ialah apabila memilih data untuk persamaan yang sesuai. Baris gilir asal yang digunakan untuk mereka bentuk formula eGFR kebanyakannya terdiri daripada peserta hitam dan putih, dan kebolehgunaannya kepada banyak kumpulan etnik lain tidak jelas. Titik masuk berikutnya untuk nilai manusia ke dalam formula ini termasuk: memilih ketepatan mGFR sebagai objektif utama untuk menilai fungsi buah pinggang, apakah tahap ketepatan yang boleh diterima, cara mengukur ketepatan, dan menggunakan eGFR sebagai ambang untuk mencetuskan pembuatan keputusan klinikal (seperti menentukan syarat untuk pemindahan buah pinggang atau preskripsi ubat). Akhir sekali, apabila memilih kandungan model input, nilai manusia juga akan memasuki formula ini.
Sebagai contoh, sebelum 2021, garis panduan mencadangkan melaraskan tahap kreatinin dalam formula eGFR berdasarkan umur, jantina dan bangsa pesakit (hanya diklasifikasikan sebagai individu kulit hitam atau bukan kulit hitam). Pelarasan berdasarkan kaum bertujuan meningkatkan ketepatan formula mGFR, tetapi pada tahun 2020, hospital utama mula mempersoalkan penggunaan eGFR berasaskan kaum, dengan alasan seperti menangguhkan kelayakan pesakit untuk pemindahan dan mengkokritkan perlumbaan sebagai konsep biologi. Penyelidikan telah menunjukkan bahawa mereka bentuk model eGFR dari segi kaum boleh memberi kesan yang mendalam dan berbeza-beza terhadap ketepatan dan hasil klinikal; Oleh itu, secara terpilih memfokuskan pada ketepatan atau memfokus pada sebahagian hasil mencerminkan pertimbangan nilai dan mungkin menutupi pembuatan keputusan yang telus. Akhirnya, kumpulan kerja kebangsaan mencadangkan formula baharu yang dipasang semula tanpa mengambil kira perlumbaan untuk mengimbangi isu prestasi dan keadilan. Contoh ini menggambarkan bahawa walaupun formula klinikal yang mudah mempunyai banyak titik masuk ke dalam nilai manusia.
Berbanding dengan formula klinikal dengan hanya sebilangan kecil penunjuk ramalan, LLM mungkin terdiri daripada berbilion hingga ratusan bilion parameter (berat model) atau lebih, menjadikannya sukar untuk difahami. Sebab mengapa kami mengatakan "sukar untuk difahami" ialah dalam kebanyakan LLM, cara tepat untuk mendapatkan respons melalui penyoalan tidak dapat dipetakan. Bilangan parameter untuk GPT-4 belum diumumkan lagi; GPT-3 pendahulunya mempunyai 175 bilion parameter. Lebih banyak parameter tidak semestinya bermakna keupayaan yang lebih kukuh, kerana model yang lebih kecil yang merangkumi lebih banyak kitaran pengiraan (seperti siri model LLaMA [Large Language Model Meta AI]) atau model yang ditala dengan halus berdasarkan maklum balas manusia akan berprestasi lebih baik daripada model yang lebih besar. Sebagai contoh, menurut penilai manusia, model InstrumentGPT (model dengan 1.3 bilion parameter) mengatasi GPT-3 dalam mengoptimumkan hasil keluaran model.
Butiran latihan khusus GPT-4 belum didedahkan lagi, tetapi butiran model generasi sebelumnya termasuk GPT-3, InstrumentGPT dan banyak LLM sumber terbuka lain telah didedahkan. Pada masa kini, banyak model AI datang dengan kad model; Data penilaian dan keselamatan GPT-4 telah diterbitkan dalam kad sistem serupa yang disediakan oleh syarikat pencipta model OpenAI. Penciptaan LLM boleh dibahagikan secara kasar kepada dua peringkat: peringkat pra latihan awal dan peringkat penalaan halus bertujuan untuk mengoptimumkan hasil keluaran model. Dalam peringkat pra latihan, model disediakan dengan korpus besar termasuk teks Internet asal untuk melatihnya meramal perkataan seterusnya. Proses "penyiapan automatik" yang kelihatan mudah ini menghasilkan model asas yang kuat, tetapi ia juga boleh membawa kepada tingkah laku yang berbahaya. Nilai kemanusiaan akan memasuki peringkat pra latihan, termasuk memilih data pra latihan untuk GPT-4 dan memutuskan untuk mengalih keluar kandungan yang tidak sesuai seperti kandungan lucah daripada data pra latihan. Walaupun terdapat usaha ini, model asas mungkin masih tidak berguna dan tidak mampu mengandungi hasil keluaran yang berbahaya. Dalam peringkat penalaan halus seterusnya, banyak tingkah laku yang berguna dan tidak berbahaya akan muncul.
Dalam peringkat penalaan halus, tingkah laku model bahasa sering diubah secara mendalam melalui penalaan halus dan pembelajaran pengukuhan yang diselia berdasarkan maklum balas manusia. Dalam peringkat penalaan halus yang diselia, kakitangan kontraktor yang diupah akan menulis contoh respons untuk kata-kata pantas dan terus melatih model tersebut. Dalam peringkat pembelajaran pengukuhan berdasarkan maklum balas manusia, penilai manusia akan menyusun hasil keluaran model sebagai contoh kandungan input. Kemudian gunakan keputusan perbandingan di atas untuk mempelajari "model ganjaran" dan menambah baik lagi model melalui pembelajaran pengukuhan. Penglibatan manusia peringkat rendah yang menakjubkan dapat memperhalusi model besar ini. Sebagai contoh, model InstrumentGPT menggunakan pasukan yang terdiri daripada kira-kira 40 kakitangan kontraktor yang diambil daripada tapak web penyumberan ramai dan lulus ujian saringan bertujuan untuk memilih kumpulan anotasi yang sensitif terhadap keutamaan kumpulan populasi yang berbeza.
Seperti yang ditunjukkan oleh dua contoh ekstrem ini, iaitu formula klinikal mudah [eGFR] dan LLM [GPT-4] yang berkuasa, pembuatan keputusan manusia dan nilai kemanusiaan memainkan peranan yang amat diperlukan dalam membentuk hasil keluaran model. Bolehkah model AI ini menangkap pelbagai nilai pesakit dan doktor mereka? Bagaimana untuk membimbing secara terbuka aplikasi AI dalam perubatan? Seperti yang dinyatakan di bawah, pemeriksaan semula analisis keputusan perubatan mungkin memberikan penyelesaian berprinsip kepada isu-isu ini.
Analisis keputusan perubatan tidak biasa kepada kebanyakan doktor, tetapi ia boleh membezakan antara penaakulan kebarangkalian (untuk hasil yang tidak pasti yang berkaitan dengan membuat keputusan, seperti sama ada untuk mentadbir hormon pertumbuhan manusia dalam senario klinikal kontroversi yang ditunjukkan dalam Rajah 1) dan faktor pertimbangan (untuk nilai subjektif yang dilampirkan pada hasil tersebut, yang nilainya dikira sebagai cm2 ketinggian sistem lelaki), dikira sebagai "pertambahan nilai sistem2 lelaki". penyelesaian untuk keputusan perubatan yang kompleks. Dalam analisis keputusan, doktor mesti terlebih dahulu menentukan semua kemungkinan keputusan dan kebarangkalian yang berkaitan dengan setiap hasil, dan kemudian menggabungkan pesakit (atau pihak lain) utiliti yang dikaitkan dengan setiap hasil untuk memilih pilihan yang paling sesuai. Oleh itu, kesahihan analisis keputusan bergantung kepada sama ada tetapan hasil adalah menyeluruh, serta sama ada pengukuran utiliti dan anggaran kebarangkalian adalah tepat. Sebaik-baiknya, pendekatan ini membantu memastikan bahawa keputusan adalah berasaskan bukti dan sejajar dengan keutamaan pesakit, dengan itu mengecilkan jurang antara data objektif dan nilai peribadi. Kaedah ini telah diperkenalkan ke dalam bidang perubatan beberapa dekad yang lalu dan digunakan untuk membuat keputusan pesakit individu dan penilaian kesihatan penduduk, seperti menyediakan cadangan untuk pemeriksaan kanser kolorektal kepada populasi umum.
Dalam analisis keputusan perubatan, pelbagai kaedah telah dibangunkan untuk mendapatkan utiliti. Kebanyakan kaedah tradisional secara langsung memperoleh nilai daripada pesakit individu. Kaedah paling mudah ialah menggunakan skala penilaian, di mana pesakit menilai tahap keutamaan mereka untuk hasil tertentu pada skala digital (seperti skala linear antara 1 hingga 10), dengan hasil kesihatan yang paling ekstrem (seperti kesihatan lengkap dan kematian) terletak di kedua-dua hujungnya. Kaedah pertukaran masa adalah satu lagi kaedah yang biasa digunakan. Dalam kaedah ini, pesakit perlu membuat keputusan tentang berapa banyak masa sihat yang mereka sanggup luangkan sebagai pertukaran untuk tempoh kesihatan yang kurang baik. Kaedah perjudian standard adalah satu lagi kaedah yang biasa digunakan untuk menentukan utiliti. Dalam kaedah ini, pesakit ditanya yang mana antara dua pilihan yang mereka suka: sama ada hidup beberapa tahun dalam kesihatan normal dengan kebarangkalian tertentu (p) (t), dan menanggung risiko kematian dengan kebarangkalian 1-p; Sama ada pastikan untuk hidup selama t tahun di bawah keadaan kesihatan silang. Tanya pesakit beberapa kali pada nilai-p yang berbeza sehingga mereka tidak menunjukkan keutamaan untuk sebarang pilihan, supaya utiliti boleh dikira berdasarkan tindak balas pesakit.
Sebagai tambahan kepada kaedah yang digunakan untuk mendapatkan keutamaan pesakit individu, kaedah juga telah dibangunkan untuk mendapatkan utiliti untuk populasi pesakit. Terutamanya perbincangan kumpulan fokus (mengumpulkan pesakit untuk membincangkan pengalaman tertentu) boleh membantu memahami perspektif mereka. Untuk mengagregat utiliti kumpulan dengan berkesan, pelbagai teknik perbincangan kumpulan berstruktur telah dicadangkan.
Dalam amalan, pengenalan langsung utiliti dalam diagnosis klinikal dan proses rawatan adalah sangat memakan masa. Sebagai penyelesaian, soal selidik tinjauan biasanya diedarkan kepada populasi yang dipilih secara rawak untuk mendapatkan skor utiliti pada peringkat populasi. Beberapa contoh termasuk soal selidik EuroQol 5 dimensi, bentuk pendek berat utiliti 6 dimensi, Indeks Utiliti Kesihatan dan Alat Soal Selidik Kualiti Hidup Organisasi Penyelidikan dan Rawatan Kanser Eropah Khusus Kanser Teras 30.
Masa siaran: Jun-01-2024




