अटलांटिक ने एआई को प्रशिक्षित करने के लिए उपयोग किए जाने वाले संगीत का एक खोजने योग्य डेटाबेस बनाया

अटलांटिक रिपोर्टर एलेक्स रीस्नर ने हाल ही में खुलासा किया चार डेटासेट प्रशिक्षण के लिए संगीत का उपयोग किया जा रहा है एआई मॉडल और उन्हें बनाया पूरी तरह से खोजने योग्य जनता के लिए. इनमें से दो सेट 12 मिलियन और 9 मिलियन ट्रैक के साथ बिल्कुल विशाल हैं। अन्य दो बहुत छोटे हैं, लेकिन फिर भी प्रत्येक 100,000 से अधिक गानों पर प्रशिक्षण डेटा की एक महत्वपूर्ण मात्रा का प्रतिनिधित्व करते हैं।

रीस्नर के अनुसार, सेट को हजारों बार डाउनलोड किया गया है और, हालांकि यह जानना असंभव है कि उनका उपयोग किसने किया है, गूगल और स्थिरता दोनों ने शोध पत्रों में इसकी पुष्टि की है। कुछ स्रोत, जैसे मुफ़्त संगीत पुरालेख डेटासेट, व्यक्तिगत उपयोग के लिए स्ट्रीम करने के लिए स्वतंत्र हैं लेकिन व्यावसायिक अनुप्रयोगों के लिए लाइसेंस की आवश्यकता होती है।

जबकि सैद्धांतिक रूप से डेटासेट इंटरनेट पर स्वतंत्र रूप से उपलब्ध हैं, उन्हें प्रशिक्षण डेटा के रूप में उपयोग करना ज़िप फ़ाइल को डाउनलोड करने और इसे एआई मॉडल में फीड करने जितना आसान नहीं है। जैसा कि रीस्नर बताते हैं:

मुझे मिले तीन डेटासेट YouTube या Spotify पर गानों के लिंक की सूची के रूप में वितरित किए गए हैं। एआई डेवलपर्स काम को स्वचालित करने वाले टूल का उपयोग करके वास्तविक ऑडियो डाउनलोड करते हैं, जिनमें से कुछ डेवलपर्स को लॉगिन, विज्ञापनों और तंत्र को बायपास करने की अनुमति देते हैं जो रचनाकारों के लिए पैसा या ग्राहक कमा सकते हैं। ऐसे उपकरण इन प्लेटफार्मों की सेवा की शर्तों का उल्लंघन करते हैं।