• بينر

OpenAI پوائنٽ E: ھڪڙي GPU تي منٽن ۾ پيچيده waveforms مان ھڪڙو 3D پوائنٽ بادل ٺاھيو

هڪ نئين آرٽيڪل ۾ پوائنٽ-اي: پيچيده سگنلن مان 3D پوائنٽ بادل پيدا ڪرڻ لاءِ هڪ نظام، OpenAI ريسرچ ٽيم پوائنٽ E متعارف ڪرايو، هڪ 3D پوائنٽ ڪلائوڊ ٽيڪسٽ مشروط سنٿيسس سسٽم جيڪو ڊفيوشن ماڊل استعمال ڪري ٿو مختلف ۽ پيچيده 3D شڪلون ٺاهڻ لاءِ پيچيده متن ذريعي. اشارو.ھڪڙي GPU تي منٽن ۾.
اڄ جي جديد تصويري نسل جي ماڊلز جي شاندار ڪارڪردگي 3D ٽيڪسٽ شين جي نسل ۾ تحقيق کي متحرڪ ڪيو آهي.جڏهن ته، 2D ماڊلز جي برعڪس، جيڪي منٽ يا ان کان به سيڪنڊن ۾ پيداوار پيدا ڪري سگھن ٿا، اعتراض پيدا ڪندڙ ماڊل عام طور تي ڪيترن ئي ڪلاڪن جي GPU ڪم جي ضرورت هوندي آهي هڪ واحد نمونو پيدا ڪرڻ لاءِ.
هڪ نئين مضمون ۾ پوائنٽ-اي: پيچيده سگنلن مان 3D پوائنٽ بادل پيدا ڪرڻ لاءِ هڪ نظام، OpenAI تحقيقي ٽيم پيش ڪري ٿي Point·E، 3D پوائنٽ بادلن لاءِ هڪ متني شرطي سنٿيسس سسٽم.هي نئون طريقو هڪ پروپيگيشن ماڊل استعمال ڪري ٿو مختلف ۽ پيچيده 3D شڪلون ٺاهڻ لاءِ پيچيده ٽيڪسٽ سگنلن مان صرف هڪ يا ٻن منٽن ۾ هڪ واحد GPU تي.
ٽيم متن کي 3D ۾ تبديل ڪرڻ جي چيلنج تي مرکوز آهي، جيڪو حقيقي دنيا جي ايپليڪيشنن لاءِ 3D مواد جي تخليق کي جمهوري ڪرڻ لاءِ اهم آهي مجازي حقيقت ۽ گيمنگ کان وٺي صنعتي ڊيزائن تائين.ٽيڪسٽ کي 3D ۾ تبديل ڪرڻ جا موجوده طريقا ٻن ڀاڱن ۾ ورهايل آهن، جن مان هر هڪ کي پنهنجون خاميون آهن: 1) پيداواري ماڊل استعمال ڪري سگهجن ٿا نمونا ٺاهڻ لاءِ موثر طريقي سان، پر مختلف ۽ پيچيده ٽيڪسٽ سگنلن لاءِ موثر انداز ۾ ماپي نٿا سگهن.2) پيچيده ۽ متنوع متن جي اشارن کي سنڀالڻ لاءِ اڳ-تربيت ٿيل ٽيڪسٽ-تصوير جو ماڊل، پر اهو طريقو حسابي طور تي تمام گهڻو آهي ۽ ماڊل آساني سان مقامي مينيما ۾ ڦاسي سگهي ٿو جيڪي بامعني يا مربوط 3D شين سان مطابقت نه رکن.
تنهن ڪري، ٽيم هڪ متبادل طريقي جي ڳولا ڪئي جنهن جو مقصد مٿين ٻن طريقن جي طاقتن کي گڏ ڪرڻ آهي، ٽيڪسٽ-ٽو-تصوير ڊفيوشن ماڊل استعمال ڪندي ٽيڪسٽ تصويري جوڑوں جي وڏي سيٽ تي تربيت ڪئي وئي (ان کي متنوع ۽ پيچيده سگنلن کي سنڀالڻ جي اجازت ڏئي ٿي) ۽ هڪ 3D تصويري ڊفيوشن ماڊل جيڪو ٽيڪسٽ-تصوير جوڙن جي ننڍڙي سيٽ تي تربيت يافته آهي.image-3D pair dataset.ٽيڪسٽ کان تصويري ماڊل پهريون نمونو ان پٽ تصوير کي هڪ واحد مصنوعي نمائندگي ٺاهي ٿو، ۽ تصوير کان 3D ماڊل چونڊيل تصوير جي بنياد تي 3D پوائنٽ ڪلائوڊ ٺاهي ٿو.
ڪمانڊ جو جنريٽو اسٽيڪ حال ۾ تجويز ڪيل جنريٽو فريم ورڪ تي ٻڌل آهي شرطي طور تي ٽيڪسٽ مان تصويرون ٺاهڻ لاءِ (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).اهي 3 بلين GLIDE پيرا ميٽرز (Nichol et al.، 2021) سان گڏ هڪ GLIDE ماڊل استعمال ڪن ٿا، پيش ڪيل 3D ماڊلز تي فائن ٽيون، انهن جي ٽيڪسٽ کان تصويري ٽرانسفارميشن ماڊل جي طور تي، ۽ ڊفيوشن ماڊلز جو هڪ سيٽ جيڪو آر بي بي پوائنٽ ڪلائوڊز ٺاهي ٿو انهن جي طور تي. تبديلي ماڊل.تصويرن ڏانهن تصوير.3D ماڊلز.
جڏهن ته پوئين ڪم 3D آرڪيٽيڪچر استعمال ڪيو پوائنٽ ڪلاؤڊس کي پروسيس ڪرڻ لاءِ، محقق استعمال ڪيو سادو ٽرانسڊيوسر تي ٻڌل ماڊل (Vaswani et al.، 2017) ڪارڪردگي بهتر ڪرڻ لاءِ.انهن جي ڊفيوشن ماڊل آرڪيٽيڪچر ۾، پوائنٽ ڪلائوڊ تصويرن کي پهريون ڀيرو اڳ-تربيت ٿيل ViT-L/14 CLIP ماڊل ۾ فيڊ ڪيو ويندو آهي ۽ پوءِ آئوٽ پٽ ميشز کي ڪنورٽر ۾ فيڊ ڪيو ويندو آهي مارڪر طور.
انهن جي تجرباتي مطالعي ۾، ٽيم تجويز ڪيل Point·E طريقي جو مقابلو ڪيو ٻين پيدا ٿيندڙ 3D ماڊلز سان اسڪورنگ سگنلن تي COCO اعتراض جي ڳولا، ڀاڱيداري، ۽ دستخطي ڊيٽا سيٽ.نتيجا ان ڳالهه جي تصديق ڪن ٿا ته Point·E پيچيده متن سگنلن مان متنوع ۽ پيچيده 3D شڪلون پيدا ڪرڻ جي قابل آهي ۽ هڪ کان ٻن آرڊرن جي شدت سان انفريشن ٽائيم کي تيز ڪري ٿو.ٽيم کي اميد آهي ته سندن ڪم 3D ٽيڪسٽ سنٿيسس ۾ وڌيڪ تحقيق کي متاثر ڪندو.
پروجيڪٽ جي GitHub تي هڪ اڳوڻي پوائنٽ ڪلائوڊ پروپيگيشن ماڊل ۽ تشخيص ڪوڊ موجود آهن.Document Point-E: پيچيده سراغ مان 3D پوائنٽ بادل ٺاهڻ لاءِ هڪ سسٽم arXiv تي آهي.
اسان ڄاڻون ٿا ته توهان ڪنهن به خبر يا سائنسي دريافت کي وڃائڻ نٿا چاهيو.رڪنيت حاصل ڪريو اسان جي مشهور Synced Global AI هفتيوار نيوز ليٽر هفتيوار AI اپڊيٽ حاصل ڪرڻ لاءِ.


پوسٽ جو وقت: ڊسمبر-28-2022