(Dutch version below) On Monday 13 May, Witteveen + Bos and DigiShape organised a hackaton on underwater sound. With a diverse group of experts in the field of underwater acoustics, signal processing (signal processing) and/or machine learning and AI, we worked on the question:
What reprocessed parameters (with an eye on minimal data storage) can you derive from sound recordings that still give you enough input for vessel recognition with your favourite AI model?
While there is potentially a wealth of information available in the field of underwater noise (think of ship recognition, piling, explosions at sea and seismic surveys), the data are difficult to share widely because of the size of the sound files and the labour-intensive process of labelling. Witteveen + Bos and Rijkswaterstaat won the 2023 DigiShape seedmoney to identify ways in which sound files can be ‘stripped down’ so that they can be shared in a smaller format, without losing essential information.
Niels Kinneging of Rijkswaterstaat on underwater noise
We started the day with an introduction from Niels Kinneging of the Rijkswaterstaat's Underwater Noise team. He was project leader of the European project Jomopans from 2018 to 2022, in which 11 institutes from all countries around the North Sea developed a framework for monitoring underwater noise in the North Sea using measurements. He discussed what the term underwater noise actually means, what natural noise sources there are and which sounds are caused by humans. He also explained what effects this noise can have on marine life and in what ways you can analyse it.
Niels: ‘Noise measurements contain a wealth of information. By making the measurements publicly available, it is possible for experts from different disciplines to look at the data in a different way. We all learn a lot from this.’
- Download sheets Niels Kinneging
- Public datasources NCEI: https://soundcoop.portal.axds.co/#soundcoop/datasets
Hilde Hummel from CWI on Machine Learning and underwater sound
Hilde Hummel of Centrum Wiskunde & Informatica (CWI) then talked about her PhD research with the topic: The State-of-the-Art Machine Learning in Underwater Acoustics. She sees that in recent years there has been a real evolution in the number of applications in the field of Machine Learning and AI. This is good news because there is still a lot of unexplored territory when it comes to underwater acoustics. At the same time, researchers and developers still encounter many challenges, which include the complexity of the underwater environment and the limited amount of labelled data.
Hilde: ‘Very nice that DigiShape and Witteveen+Bos have brought together so many experts in this underwater field. Together we know more.’
Download Hilde's sheets
Marieke Bezemer of Witteveen + Bos on the results of the hackaton
Marieke Bezemer, who is leading the project from Witteveen + Bos, was very pleased with the initial impuls that was given during the hackaton. ‘You can see that there is still quite a gap in the Netherlands between specialists in the field of underwater noise on the one hand and specialists in the field of Machine Learning on the other. Today we were able to bring these two fields closer together.’
As expected, the challenge is to reduce all fragments while making them suitable for the variety of intended applications. One possible solution route is to filter the audio fragments in advance, which gives you a better idea of which files are relevant. Based on relevance, you then decide how much information to store per fragment.
Marieke: ‘Depending on the background of the expert and the intended application, there may be different needs and preferences. We have seen that some participants preferred to convert the fragments into spectrograms and then feed them into an AI algorithm as a whole, while others further process these spectrograms into features and work with these reprocessed parameters. There was also extensive discussion during the hackaton about what makes a sound clip good or useful. Is this a fragment with sound sources well above the noise level? Or, on the contrary, do we want to use fragments, which are contaminated, for our algorithms? Again, the difference in the intended application plays a big role.’
At the end of the day, the various ideas for reducing the dataset were discussed in detail. These included:
- Selection of fragments based on labels. The distance of a ship from the hydrophone and the type of ship.
- Method of calculating a spectrogram.
- Division of the fragments based on wavelet analyses, where in fact a different reduction level can be achieved per frequency band.
- Deriving features based on the frequency analyses, calculating reprocessed parameters.
Possible follow-up
Clearly, when it comes to underwater noise, we are sitting on a goldmine of information. But in order to make this data available in an efficient and usable way, a lot of steps still need to be taken. During this hackaton, an initial impuls was given to this and in the process, as expected, potential barriers and questions were also raised. In the course of 2024, we will take stock of whether there is a need for a follow-up with this group and whoever wants to join it.
Terugblik hackaton onderwatergeluid - 13 mei 2024
Op maandag 13 mei organiseerden Witteveen + Bos en DigiShape een hackaton over onderwatergeluid. Met een gevarieerde groep van experts op het gebied van onderwater akoestiek, signaalverwerking (signal processing) en/of machine learning en AI werkten we aan de vraag:
Welke opgewerkte parameters (met het oog op minimale gegevensopslag) kun je afleiden uit de geluidsopnames, waarmee je nog steeds voldoende input hebt voor scheepsherkenning met jouw favoriete AI model?
Want hoewel er potentieel een schat aan informatie beschikbaar is op het gebied van onderwatergeluid (denk aan scheepsherkenning, piling, explosies op zee en seismisch onderzoek), zijn de data moeilijk breed te delen vanwege de omvang van de geluidsbestanden en het arbeidsintensieve proces van labelling. Witteveen + Bos en Rijkswaterstaat wonnen in 2023 de DigiShape seedmoney om te inventariseren op welke wijze geluidsbestanden ‘uitgekleed’ kunnen worden, zodat ze in een kleiner formaat kunnen worden gedeeld, zonder dat er essentiële informatie verloren gaat.
Niels Kinneging van Rijkswaterstaat over onderwatergeluid
We begonnen de dag met een inleiding van Niels Kinneging van het team Onderwatergeluid van Rijkswaterstaat. Hij was van 2018 tot en met 2022 projectleider van het Europese project Jomopans, waarin elf instituten uit alle landen rond de Noordzee met behulp van metingen een framework ontwikkelden voor het monitoren van onderwatergeluid in de Noordzee. Hij ging in op wat het begrip onderwatergeluid eigenlijk inhoudt, welke natuurlijke geluidsbronnen er zijn en welke geluiden door mensen worden veroorzaakt. Ook vertelde hij welke gevolgen dit geluid kan hebben voor het onderwaterleven en op welke manieren je het kunt analyseren.
Niels: “Geluidmetingen bevatten een schat aan informatie. Door de metingen openbaar beschikbaar te maken is het mogelijk dat experts uit verschillende disciplines op een andere manier naar de data kijken. Hier leren we allemaal veel van.”
- Download hier de sheets van Niels Kinneging
- Openbare databronnen van NCEI: https://soundcoop.portal.axds.co/#soundcoop/datasets
Hilde Hummel van CWI over Machine Learning en onderwatergeluid
Hilde Hummel van Centrum Wiskunde & Informatica (CWI) vertelde vervolgens over haar promotieonderzoek met als onderwerp: The State-of-the-Art Machine Learning in Underwater Acoustics. Ze ziet dat er in de laatste jaren een ware evolutie gaande is in het aantal applicaties op het gebied van Machine Learning en AI. Dat is goed nieuws, omdat er nog veel onontgonnen terrein is als het gaat om onderwatergeluid. Tegelijkertijd komen de onderzoekers en ontwikkelaars nog heel wat uitdagingen tegen, die onder andere te maken hebben met de complexiteit van de onderwater omgeving en de gelimiteerde hoeveelheid gelabelde data.
Hilde: “Heel mooi dat DigiShape en Witteveen+Bos zoveel experts op dit onderwater gebied bij elkaar hebben gebracht. Samen weten we meer.”
- Download de sheets van Hilde
Marieke Bezemer van Witteveen + Bos over de resultaten van de hackaton
Marieke Bezemer, die het project vanuit Witteveen + Bos leidt, was zeer tevreden over de eerste aanzet die tijdens de hackaton is gedaan. “Je ziet dat er in Nederland nog een behoorlijk gat is tussen specialisten op het gebied van onderwatergeluid enerzijds en specialisten op het gebied van Machine Learning anderzijds. Vandaag hebben we deze twee vakgebieden dichter bij elkaar kunnen brengen.”
Zoals verwacht, is het een uitdaging om alle fragmenten te reduceren en tegelijkertijd geschikt te maken voor de verscheidenheid van beoogde toepassingen. Een mogelijke oplossingsroute is het op voorhand filteren van de geluidsfragmenten, waardoor je beter in beeld krijgt welke bestanden relevant zijn. Op basis van de relevantie bepaal je vervolgens hoeveel informatie je per fragment bewaart.
Marieke: "Afhankelijk van de achtergrond van de expert en de beoogde toepassing kunnen er andere behoeftes en voorkeuren zijn. We hebben gezien dat sommige deelnemers voorkeur hadden om de fragmenten om te zetten naar spectrogrammen en deze vervolgens in het geheel te voeden aan een AI algoritme, terwijl andere deelnemers deze spectrogrammen verder verwerken naar kenmerken en met deze opgewerkte parameters aan de slag gaan. Ook is er tijdens de hackaton uitgebreid gesproken over wat een geluidsfragment goed of nuttig maakt. Is dit een fragment met geluidsbronnen die ruim boven het ruisniveau uitkomen? Of willen we juist ook fragmenten, die vervuild zijn, gebruiken voor onze algoritmes? Ook hier speelt het verschil in de beoogde toepassing een grote rol."
Aan het einde van de dag zijn de verschillende ideeën om de dataset te reduceren uitgebreid besproken. Hierbij was er onder andere aandacht voor:
- Selectie van fragmenten op basis van de labels. De afstand van een schip tot de hydrofoon en het type schip.
- Wijze van berekenen van een spectrogram.
- Opdelen van de fragmenten op basis van wavelet analyses, waarbij in feite per frequentieband een ander reductieniveau gehaald kan worden
- Het afleiden van kenmerken op basis van de frequentieanalyses, waarbij opwerkte parameters berekend worden.
Mogelijk vervolg
Het is duidelijk dat, als het gaat om onderwatergeluid, we op een goudmijn van informatie zitten. Alleen om deze data op een efficiënte en bruikbare manier beschikbaar te kunnen stellen, moeten er nog heel wat stappen worden gezet. Tijdens deze hackaton is hier een eerste aanzet voor gedaan en daarbij zijn, zoals verwacht, ook mogelijke drempels en vragen opgeworpen. In de loop van 2024 inventariseren we of er met deze groep, en wie daarbij wil aansluiten, behoefte is aan een vervolg.