Galileo прагне покращити неструктуровані дані для машинного навчання (ML) і збирає 18 мільйонів доларів

Приєднуйтесь до нас 9 листопада, щоб дізнатися, як успішно впроваджувати інновації та підвищувати ефективність шляхом вдосконалення та масштабування громадянських розробників на саміті Low-Code/No-Code Summit. Зареєструйтесь тут.

Машинне навчання (ML) вимагає даних для навчання та ітерації. Використання даних для ML також вимагає базового розуміння вмісту навчальних даних, що не завжди легко вирішити.

Зокрема, існує справжня проблема з неструктурованими даними, які за визначенням не мають структури, щоб допомогти організувати дані так, щоб вони могли бути корисними для ML і бізнес-операцій. Це дилема, з якою Вікрам Чаттерджі стикався знову і знову під час своєї роботи керівником проекту хмарного штучного інтелекту (AI) у Google.

У великих підприємствах у багатьох галузях, зокрема фінансових послуг і роздрібної торгівлі, Чаттерджі та його колеги продовжували бачити величезні обсяги неструктурованих даних, зокрема тексту, зображень та аудіо, які висіли. Компанії постійно запитували його, як вони можуть використовувати ці неструктуровані дані, щоб отримати розуміння. Чаттерджі відповів, що вони можуть просто використовувати ML, але проста відповідь ніколи не була простішою.

«Ми дуже швидко зрозуміли, що сама модель ML — це те, що ми щойно знайшли в продажу, і вона дуже проста», — сказав Чаттерджі VentureBeat. «Але найскладніша частина, яка становить 80-90% моєї роботи як спеціаліста з обробки даних, полягала в тому, щоб увійти, переглянути дані та спробувати з’ясувати, що таке погані дані, як їх очистити. переконайтеся, що наступного разу буде краще».
Подія
Вершина з низьким кодом/без коду

Дізнайтеся, як створювати, масштабувати та керувати програмами з низьким кодом у простий спосіб, який принесе успіх для всіх цього 9 листопада. Підпишіться на безкоштовний абонемент сьогодні.
зареєструватися тут
Це усвідомлення спонукало Чаттерджі та його співзасновників Яша Шета й Атіндріо Саньяла наприкінці 2021 року створити новий стартап під назвою Galileo, щоб перенести аналіз даних у неструктуровані дані для машинного навчання.
>
Сьогодні Galileo оголосила, що залучила 18 мільйонів доларів США в раунді фінансування серії A, оскільки компанія продовжує розвивати свою технологію.
Розвідка даних проти маркування даних
Усі дані, як структуровані, так і неструктуровані, зазвичай проходять процес позначення даних перед використанням для навчання моделі ML. Chatterji не розглядає технологію своєї компанії як заміну маркування даних, але Galileo надає інтелектуальний рівень на додаток до існуючих інструментів ML.

Чаттерджі сказав, що в Google і Uber широко використовується маркування даних, але цього все ще недостатньо для вирішення проблеми ефективного розуміння неструктурованих даних. Перед позначенням даних виникають проблеми, зокрема розуміння якості, точності та дублювання даних. Щойно дані помічені та у виробництві, це також викликає занепокоєння.

"Після позначення даних і навчання моделі, як визначити, які зразки позначено неправильно?" Чаттерджі сказав. «Це проблема голки в стозі сіна».

Компанія Galileo розробила серію складних алгоритмів, щоб мати можливість швидко ідентифікувати потенційно неправильно позначені зразки. Платформа Galileo надає низку різних показників, які також можуть допомогти дослідникам даних виявити проблеми з даними для моделей ML. Одним із таких показників є показник потенційної помилки даних, який надає число, яке може допомогти організації зрозуміти потенційні випадки помилок даних і вплив на модель.

Загалом підхід, використаний Galileo, є спробою "налагодити" дані, знайти потенційні помилки та виправити...

Стартапи Nov 2, 2022 0 36 Add to Reading List

Galileo прагне покращити неструктуровані дані для машинного навчання (ML) і збирає 18 мільйонів доларів

Приєднуйтесь до нас 9 листопада, щоб дізнатися, як успішно впроваджувати інновації та підвищувати ефективність шляхом вдосконалення та масштабування громадянських розробників на саміті Low-Code/No-Code Summit. Зареєструйтесь тут.

Машинне навчання (ML) вимагає даних для навчання та ітерації. Використання даних для ML також вимагає базового розуміння вмісту навчальних даних, що не завжди легко вирішити.

Зокрема, існує справжня проблема з неструктурованими даними, які за визначенням не мають структури, щоб допомогти організувати дані так, щоб вони могли бути корисними для ML і бізнес-операцій. Це дилема, з якою Вікрам Чаттерджі стикався знову і знову під час своєї роботи керівником проекту хмарного штучного інтелекту (AI) у Google.

У великих підприємствах у багатьох галузях, зокрема фінансових послуг і роздрібної торгівлі, Чаттерджі та його колеги продовжували бачити величезні обсяги неструктурованих даних, зокрема тексту, зображень та аудіо, які висіли. Компанії постійно запитували його, як вони можуть використовувати ці неструктуровані дані, щоб отримати розуміння. Чаттерджі відповів, що вони можуть просто використовувати ML, але проста відповідь ніколи не була простішою.

«Ми дуже швидко зрозуміли, що сама модель ML — це те, що ми щойно знайшли в продажу, і вона дуже проста», — сказав Чаттерджі VentureBeat. «Але найскладніша частина, яка становить 80-90% моєї роботи як спеціаліста з обробки даних, полягала в тому, щоб увійти, переглянути дані та спробувати з’ясувати, що таке погані дані, як їх очистити. переконайтеся, що наступного разу буде краще».

Подія

Вершина з низьким кодом/без коду

Дізнайтеся, як створювати, масштабувати та керувати програмами з низьким кодом у простий спосіб, який принесе успіх для всіх цього 9 листопада. Підпишіться на безкоштовний абонемент сьогодні.

зареєструватися тут

Це усвідомлення спонукало Чаттерджі та його співзасновників Яша Шета й Атіндріо Саньяла наприкінці 2021 року створити новий стартап під назвою Galileo, щоб перенести аналіз даних у неструктуровані дані для машинного навчання.

Сьогодні Galileo оголосила, що залучила 18 мільйонів доларів США в раунді фінансування серії A, оскільки компанія продовжує розвивати свою технологію.

Розвідка даних проти маркування даних

Усі дані, як структуровані, так і неструктуровані, зазвичай проходять процес позначення даних перед використанням для навчання моделі ML. Chatterji не розглядає технологію своєї компанії як заміну маркування даних, але Galileo надає інтелектуальний рівень на додаток до існуючих інструментів ML.

Чаттерджі сказав, що в Google і Uber широко використовується маркування даних, але цього все ще недостатньо для вирішення проблеми ефективного розуміння неструктурованих даних. Перед позначенням даних виникають проблеми, зокрема розуміння якості, точності та дублювання даних. Щойно дані помічені та у виробництві, це також викликає занепокоєння.

"Після позначення даних і навчання моделі, як визначити, які зразки позначено неправильно?" Чаттерджі сказав. «Це проблема голки в стозі сіна».

Компанія Galileo розробила серію складних алгоритмів, щоб мати можливість швидко ідентифікувати потенційно неправильно позначені зразки. Платформа Galileo надає низку різних показників, які також можуть допомогти дослідникам даних виявити проблеми з даними для моделей ML. Одним із таких показників є показник потенційної помилки даних, який надає число, яке може допомогти організації зрозуміти потенційні випадки помилок даних і вплив на модель.

Загалом підхід, використаний Galileo, є спробою "налагодити" дані, знайти потенційні помилки та виправити...