Análise da Música Brasileira – Parte 1

Veja o gráfico abaixo. É a distribuição dos gêneros musicais brasileiros considerando apenas 2 medidas: a quantidade de acordes distintos utilizados nas composições (eixo horizontal) e a quantidade de palavras distintas utilizadas nas letras (eixo vertical).

bolhas_generosCom apenas essas duas medidas, fica bastante nítido como os alguns gêneros se posicionam de maneira isolada em relação aos outros. Enquanto o Rap/Hip Hop destaca-se ao mesmo tempo pela alta quantidade de palavras e pelo baixo número de acordes, a Bossa Nova tem um alto número de acordes e uma quantidade mediana de palavras. Já a MPB apresenta altos índices em ambas as medidas. Outros gêneros se aglomeram perto da origem do eixo, como o Funk, o Axé Music, o Reggae e o Infantil.

O que informações como a diversidade dos acordes (saiba o que é isso) ou o tamanho do vocabulário utilizado têm a nos dizer sobre as diferentes vertentes da música brasileira? Desde a “velha guarda” da MPB das décadas de 30, 40 e 50, que criou mitos como Herivelto Martins e Elizeth Cardoso, passando pela Bossa Nova, pelo Punk Rock “aforrozado” dos Raimundos e finalmente (!) chegando aos novos sertanejos, seria possível identificar padrões e diferenças claras entre artistas e gêneros musicais?

Há razões para crer que sim, vide o gráfico acima!

E se considerarmos ainda outras variáveis, como o tamanho médio dos acordes (já digo porque isso pode ser relevante) ou atribuirmos uma “pontuação” para o vocabulário usado pelo artista levando em consideração o quanto que esse mesmo vocabulário é usado pelos demais artistas? Talvez assim melhoremos a caracterização de cada gênero!

O que eu fiz aqui foi um breve estudo que analisa toda a produção musical brasileira levando em consideração dois aspectos centrais: os acordes utilizados nas composições e o vocabulário presente nas letras. Os indicadores que caracterizam cada um desses aspectos permitirão não apenas perceber as características pertinentes a cada artista e gênero isoladamente, como também encontrar similaridades entre eles, permitindo a criação de agrupamentos talvez inimagináveis. Ao final de tudo, será possível compor um ranking de artistas, de acordo com a complexidade de sua produção musical (não falo em qualidade das músicas pois haveria necessariamente uma conotação subjetiva).

Faço as devidas referências. Estudos similares já foram feitos, muitos em nível internacional [a] [b]. Abordando a música brasileira, com foco nas letras, destaco os trabalhos de Thiago Marzagão e do portal Nexo. Acredito que a análise dos acordes seja um aspecto inédito no Brasil. Se eu estiver errado, avise nos comentários.

Os dados e as técnicas

Obtive os dados das músicas brasileiras das seguintes fontes:

  • Cifras: escrevi código em Python para baixar as cifras do site Cifras.com.br: total de 44 mil cifras[1].
  • Letras: também usando Python, baixei as letras do site Letras.com.br: total de 102 mil letras[2].

As técnicas utilizadas, além da simples análise descritiva dos dados, dizem respeito a processamento, análise de textos e cálculo de similaridade. Este tutorial foi uma mãe pra mim. Caso você esteja mais interessado nos códigos, veja-os aqui.

Indicadores utilizados

Criei indicadores agrupados por artista. Assim, quando se fala em quantidade de acordes utilizados, por exemplo, estamos falando do total de acordes de todas as músicas do artista. Quando analisado o gênero musical, as medidas resultam da média ponderada pela quantidade de músicas de cada artista.

Para análise das cifras, usei estes:

  • Quantidade de acordes distintos
  • Percentual de acordes distintos
  • Tamanho médio dos acordes[3]
  • Raridade do acorde, considerando a quantidade de vezes que cada acorde é utilizado por outros artistas[4]

Para análise das letras, estes:

  • Quantidade de músicas
  • Quantidade distinta de palavras
  • Percentual de palavras distintas
  • Raridade das palavras, considerando a quantidade de vezes que cada palavra é utilizada por outros artistas[5]

Vamos aos Resultados!

Dividi os resultados nas partes seguintes do post:

Parte 2: Resultados – Análise das Composições (Acordes)

Parte 3: Resultados – Análise das Composições (Letras)

Parte 4: Resultados – Análise Geral dos Artistas + Análise Temporal

[1] Uma cifra aqui deve ser entendida como  o conjunto de notações para representação dos acordes em uma música. Um acorde é o conjunto harmônico de 3 ou mais notas musicais. Para pegar as cifras no site, desconsiderei tablaturas, artistas com menos de 10 cifras e gêneros com menos de 20 artistas (agrupei os gêneros quando possível).

[2] Desconsiderei letras com menos de 50% do vocabulário em português. Além disso, só foram consideradas palavras constantes do dicionário.

[3] Por que? Acordes mais simples tendem a ter menor número de caracteres, enquanto acordes mais complexos, que utilizam inversões e outras alterações apresentam mais caracteres. É só comparar um “dó maior” (C) com um “Fá sustenido menor com sétima e inversão para baixo em Mi” (F#m7/E).

[4] Neste caso, cada acorde utilizado pelo artista foi pontuado pela razão entre a quantidade de vezes em que o próprio artista o utiliza e a quantidade de vezes em que outros artistas o utilizam. Assim, quanto mais raro for o acorde maior sua nota.

[5] Vale o mesmo raciocínio anterior. Cada palavra utilizada pelo artista foi pontuada pela razão entre a quantidade de vezes que o próprio artista a utiliza e a quantidade de vezes que outros artistas a utilizam. Assim, quanto mais rara for a palavra maior sua nota.

Anúncios

73 comentários sobre “Análise da Música Brasileira – Parte 1

      1. Sim é música, se for ver pela história o funk é um ritmo americano iniciado por James Brown a outros e aqui no Brasil bastante difundido por Tim Maia. O funk analisado nessa pesquisa recebe o nome de “Funk carioca” uma vertente do funk original.

        Curtir

  1. Não ficou claro pra mim se C e D ou Am e Gm são considerados acordes diferentes. O que, na minha opinião, mais vale como métrica de acordes distintos é a quantidade de tipos de acordes (maior, menos, sus2, sus4, 7, m7, maj7, 6, 6/9, #9…).

    Se o acorde é de Cm ou Dbm, isso fala mais sobre a quantidade de tônicas e modulação utilizadas em cada gênero que efetivamente a diversidade de acordes. Além disso, pela natural variação de alcance vocal entre músicos, sempre haverá uma grande variação no número de tonalidades empregadas.

    Curtido por 2 pessoas

      1. Não sei de quais formas você já tentou isso, mas eu tentaria alguma forma de quebrar a música em trechos (tipo de 4 em 4 linhas ou de estrofe em estrofe) e tentar analisar a tonalidade do trecho (alguma forma de matching entre o conjunto de todas as notas utilizadas nos acordes do trecho e escalas. Dá pra acelerar essa busca considerando que só as tônicas de cada acorde são tonalidades-em-potencial para o trecho).

        Isso resolveria bem o problema para músicas simples/médias, mas ainda não resolve muito a identificação de modulações mais discretas/rápidas, como em muita música de MPB e Bossa. Ai talvez só uma analise de progressões mesmo, buscando V-i, V-I, viiº-I, viiº-i…).

        Outra análise interessante, dado que você já tem um dataset legal, é tentar montar uma inferência de “quão provável é acorde X ser utilizado por compositor Y?” E, melhor ainda, dado que compositor Y utilizou acorde X, quais os acordes mais prováveis dele utilizar em seguida? Se você tá com o machine learning / data science em dia, não é difícil ver que dá pra formar uma cadeia de Markov do Ton Jobim e criar um gerador de progressões Ton Jobinianas a partir destes dados.

        Lembrando que, para tal estudo funcionar, é importante fazê-lo em função das classes de acordes (menor, maior, 7, maj7….) e não de instâncias dessas classes, se não você vai ter uma matriz super esparsa e nada amigável de se trabalhar.

        Curtido por 1 pessoa

  2. Quantidade de acordes parece ser uma variável arbitrária, já que pode se cantar todas as músicas com poucos acordes em cada música, mas em tons diferentes, o que multiplicaria facilmente o número de acordes.
    Uma média entre a quantidade de acordes usada em cada músicas do artista, e não uma soma entre músicas, faria mais sentido para diminuir a chance de encontrar um falso padrão.

    Curtido por 2 pessoas

    1. Os acordes pode ser alterado de acordo com o Maestro arranjado, exemplo: em 1967 Roberto Carlos fez um grande sucesso com a música “Namoradinha de um amigo meu” gênero Jovem Guarda que usava ao mínimo de acordes, enquanto essa mesma música gravada por Wilson Simonal foi totalmente enriquecida com acordes que se usava nas composições de Bossa Nova dentro da MPB. Pra mim o Estilo Sertanejo Universitário é pobre em em acordes e letra, e as gravadoras ditam esse monopólio nas rádios populares mercantelistas.

      Curtir

  3. Eu tenho uma crítica quanto ao modo de que você disponibilizou os códigos. Word é péssimo para compartilhar códigos e basicamente qualquer documento.

    Tente usar gist do Github, ou até mesmo escrever sua documentação em LaTeX!

    Curtido por 1 pessoa

  4. A pesquisa é interessante, mas como todas desse gênero, pode induzir a conclusões precipitadas. Acredito que a quantidade de acordes diferentes não reflete a riqueza melódica e harmônica de uma composição; no Rock e no Blues (principalmente) há ritmos/batidas diferentes dentro do mesmo acorde, bem como solos em diferentes escalas. A diversidade de palavras também não torna (necessariamente) um texto bem redigido. Mas a riqueza da MPB ficou bem destacada. Nesse sentido, concordo em todos os aspectos.

    Curtido por 1 pessoa

    1. De fato. Não há como fugir de um limite para as conclusões possíveis. Aspectos subjetivos da letra e da harmonia não podem ser captados pelos dados (pelo menos não por enquanto, e, sinceramente, ainda bem!). Outras coisas podem ser quantificadas, a depender de que tenhamos dados suficientes, e tb ajudam a formar um panorama básico dos artistas e gêneros. Valeu pelo feedback!

      Curtir

      1. Olá, cheguei aqui por acaso, não sou músico nem entendo nada de música, mas lido com tradução e pesquisa acadêmica em tradução, e uma das ferramentas que uso é a linguística de corpus. Acho que pode ser útil para você o conceito de colocação. É um conceito que permite inferir informações qualitativas a partir de dados objetivos. Por exemplo, Andréia Guerini e Walter Costa afirmam que pode ser útil para tentar abordar o conceito de poeticidade. É um conceito que, surgido na linguística de corpus, é aplicado a textos. Porém, não me surpreenderia que pudesse ser transportado para a música. Se quiser ler sobre isso, me mande um email que te dou mais informações.

        Curtido por 1 pessoa

  5. Republicou isso em Tempus fugite comentado:
    Do autor: “O que eu fiz aqui foi um breve estudo que analisa toda a produção musical brasileira levando em consideração dois aspectos centrais: os acordes utilizados nas composições e o vocabulário presente nas letras. Os indicadores que caracterizam cada um desses aspectos permitirão não apenas perceber as características pertinentes a cada artista e gênero isoladamente, como também encontrar similaridades entre eles, permitindo a criação de agrupamentos talvez inimagináveis. Ao final de tudo, será possível compor um ranking de artistas, de acordo com a complexidade de sua produção musical (não falo em qualidade das músicas pois haveria necessariamente uma conotação subjetiva).”

    Curtido por 1 pessoa

    1. Realmente ele é brilhante. No ranking ele ficou em 57º, o que é uma boa colocação. Aparentemente, pelos dados disponíveis, o que pegou pra diminuir a nota foi a variabilidade dos acordes. Mas se considerarmos que ele é um dos pioneiros da música brasileira e influenciou muita gente, podemos dizer que faz jus a um percentual dos pontos dos demais. Abraço.

      Curtir

  6. “Ao final de tudo, será possível compor um ranking de artistas, de acordo com a complexidade de sua produção musical”.

    Bem interessante seu estudo, mas ele não pode responder sobre a complexidade das produções musicais. Essa questão é ‘muito complexa’ e você vai cair em clichês do tipo “o funk é simples”.
    Da mesma forma uma harmonia com poucos acordes pode ser muito rica, dependendo de como for trabalhada. Acho que o termo “complexo” está mal colocado. Definir complexidade é complexo.

    Abraço!

    Curtido por 1 pessoa

  7. Acho que há mais subjetividades aí. Primeiro da análise dos acordes através de cifras em um site alimentado por usuários. No geral fãs de gêneros eletrônicos como o rap e o funk não tem o costume como os de rock, por exemplo, de transpor as músicas em cifra e colocar no site, o que faz com que esse gêneros tenham consideravelmente menos cifras que outros gêneros e creio que isso se reflita na análise geral. Outro ponto é que mpb não é um gênero propriamente dito. Se analisar os ditos artistas de mpb, seus discos e musicas passeiam em diferentes estilos. Gil por exemplo tem disco só de reggae, Caetano só de rock, Luiz Melodia tem disco só de samba, e por aí vai. Acho que analisar cada disco seria mais efetivo pra analisar os gêneros pelas suas características técnicas, sua construção. Entretanto gostei muito dá uma pesquisa, dá uma bela noção das diferenças entres os gêneros musicais sem entrar na (chatissima) questão de querer eleger um gênero como melhor que outro. Parabéns

    Curtido por 1 pessoa

    1. Valeu pelo feedback. Realmente ficamos limitados ao cadastro e à própria classificação feita pela fonte dos dados (no caso, o site cifras.com.br). Mas a verdade eh q não existe uma base oficial ampla de composições. Os sites de cifragem, exatamente pelo caráter colaborativo, conseguiram construir uma base muito abrangente. Mas claro, temos q aceitar essa limitação e ter cautela nas conclusões. Abs

      Curtido por 1 pessoa

    2. Eu ia comentar exatamente esse primeiro ponto. Usar um site de cifra como fonte de material já dá uma bela enviesada no estudo, tornando-o “violãocêntrico”, ou “cifracêntrico” demais. Esta pesquisa praticamente iguala “acorde” a “acorde de violão”, quando qualquer agrupamento de três ou mais notas, mesmo que tocadas uma em cada instrumento, constitui um acorde – mas este último fato não é automaticamente reconhecido e representado na linguagem das cifras.

      A menor complexidade harmônica relativa do jazz, por exemplo, que se vê no gráfico desta página, é resultado disso. Se a fonte fossem partituras, a real complexidade desse estilo estaria representada. Idem para música instrumental, ou qualquer estilo que não se prenda ao tipo de harmonia “estática”, em bloco, do violão, usando mais arpejos ou linhas melódicas.

      Curtido por 1 pessoa

  8. Iteressante demais … mas colocar jazz e blues como uma coisa só (assim como MPB) ..acho complicado … ainda tem o problema da fonte tb … sites costumam a simplificar os arranjos (numero de acordes menor que o arranjo original) principalmente de estilos musicais que tem menos acessos como o jazz e blues.

    Curtido por 1 pessoa

    1. Juntar blues e jazz foi a saída para viabilizar a análise desses gêneros, já que separados somariam pouquíssimas músicas. De fato é uma limitação decorrente da fonte dos dados, assim como uma possível simplificação dos arranjos. Mas a realidade é que não existe um repositório de cifras oficial… Obrigado pelo feedback!

      Curtir

  9. Esse é mais um exemplo de como a estatística pode ser usada como uma forma de mentira e induzir a conclusões precipitadas. O estudo já começa enviesado devido a origem ou fonte dos dados. Pode levar a concluir que o MPB tem qualidade muito superior a outros estilos musicais, quando na verdade 99% é uma bela porcaria, com letras que não fazem o menor sentido e que no mínimo foram criadas em momentos de exagero etílico ou a base de alucinógenos. Uma boa parte delas é do tipo “Ilé aie baiobá badabaue” e o pessoal acha isso o máximo. Como diversão o estudo até é válido.

    Curtido por 1 pessoa

    1. Incauto leitor, pelo visto você está com uma opinião um pouco enviesada. Sugiro deixar as visões preestabelecidas de lado e abrir a cabeça para o que os dados têm a mostrar, interpretando-os de maneira crítica, claro.

      Curtir

  10. Muito interessante! Claro que existem limitações interpretarivas, pelo proprio vies da fonte dos dados, e pelas escolhas feitas no seu modelo. Mas toda pesquisa é assim! É preciso definir os limites e vieses, e você, ao que tudo indica, está ciente disso e ja explicitou alguns. E outros leitores gentilmente indicaram outros.

    Quanto aos comentários sobre o vies da metrica de diversidade de acordes, alguem sugeriu usar analise harmonica ao invés dos acordes de fato. Eu concordo que isso pode mudar um pouco as coisas e diminuir o vies, especialmente se um dado compositor tem preferencia por uma tonalidade (tendencia a ser rebaixado no ranking) e outro muda muito as tonalidades, mas mantem as mesmas sequencias harmonicas (tendencia a ser priorizado no ranking). Tenho um estudo de 2008 com uma base dos Beattles que mostra a analise harmonica como um modelo mais rico, vide http://ieeexplore.ieee.org/document/4959518/“, ou solicite por email o original em pvt.

    Se você tiver interesse em trabalhar com analise harmonica, tenho um sistema para realizar isso automaticamente que pode te ajudar a obter dados em quantidade (Funchal, em Java, 2005, contato em pvt para pegar o codigo fonte se te interessar).

    Seguem mais algumas provocações:

    1. Palavras fora do dicionário nao poderiam ser um bom sinal de criatividade e “complexidade”? (Pedro, pedreiro, penseiro…)

    2. Comparar o vocabulario entre artistas nao poderia introduzir um viés pelo tema predominante em cada estilo? O que exatamente se quer medir com o vocabulário?

    3. Seria interessante definir mais explicitamente o teu conceito de complexo? Isso ajudaria a escolher melhor as metricas e recortes, imagino, e tambem ajudaria a fazer conclusoes e generalizaçoes.

    No mais, parabéns! Da muito pano pras mangas essa tua iniciativa. Abraço e bom trabalho!

    Curtido por 1 pessoa

    1. Valeu pelo feedback. Realmente a métrica de diversidade de acordes tá bem básica. Tentei reproduzir o que normalmente é feito com textos (cálculo de frequência x raridade ou tf-idf).
      Palavras fora do dicionário evitam “bara bara bara bere bere bere” mas realmente tb desprezam os neologismos mais criativos (foi um tradeoff calculado).

      Tenho total interesse no artigo e no programa de análise harmônica. Vou te mandar mensagem em pvt.

      Curtir

    1. Cara. Considerando todo o processo de web scraping, que demorou umas 4 semanas, mais todas as mil consultas ao stackoverflow, e o processo de análise, e ainda tendo em vista que só podia trabalhar à noite e nos finais de semana, durou uns 2 meses.

      Curtir

  11. Lendo as sugestões anteriores, a respeito de uma alternativa mais “precisa” para analisar a diversidade de acordes, acredito que, se você dispõe do “tom” da música (e esse é um dado constante nos sites de cifras, por mais que não seja totalmente confiável), pode indexar os acordes em relação aos “graus” (I, II, III, IV…) e isso vai evitar que duas melodias idênticas sejam identificadas como distintas apenas por terem sido encontradas na web em tons diferentes (só uma transposição).
    Já quanto à “complexidade” dos acordes, entendi que você utilizou, basicamente, o número de caracteres que os identifica. Quanto a isso, não ficou claro para mim se você observou, mas um acorde “básico” ou “simples” (sem nenhuma dissonante) pode ter de 1 a 3 caracteres (ex.: C#m ou G seriam, a meu ver, acordes simples/básicos). Assim, você precisaria identificar/filtrar os primeiros caracteres do acorde. Algo como: se o 2º caracter for “#” ou “b” não conta; se o 2º caracter for “m” não conta (ou se for o 3º, tendo “#” ou “b” antes dele).
    Gostei muito do seu trabalho. São múltiplos temas de meu interesse: música, programação, estatística, “big data” (quase…), etc. Como sou de Recife, se você puder fornecer um contato me seria de grande valia para projetos futuros nesta mesma linha.
    Saudações!

    Curtido por 1 pessoa

    1. Sobre a questão da complexidade dos acordes, uma aproximação melhor pode ser o número de dissonâncias, além da tríade. Para isso, seria mesmo necessário fazer um parsing de cada acorde, o que exige um pouco mais de trabalho. No meu trabalho de graduação (2005), fiz uma API Java que, entre outras coisas, era capaz de fazer o parsing das cifras e devolver informação simbólica, como o número de notas/dissonâncias; é a mesma API que utilizei para o sistema que faz análise harmônica automática, mencionado em outro comentário.

      Sobre usar a tonalidade e fazer a análise harmônica a partir disso, evidentemente, é uma aproximação melhor do que nada, mas ainda seria sensível a modulações frequentes dentro de uma mesma música (ainda assim, eu usei essa abordagem da tônica inicial em um paper de 2008 do ICASSP, e os resultados foram bem aceitáveis, e também melhores do que usando a cifra absoluta) . Uma aproximação melhor seria mesmo realizar análise harmônica automática, que identificasse as modulações. Inclusive, dessa forma seria possível também pensar em métricas de complexidade harmônica, com maior pontuação para cadências incomuns, empréstimos modais, músicas com muitas modulações, etc.

      Curtido por 1 pessoa

  12. Espetacular. Num país onde pesquisas como a sua são desvalorizadas (na prática, simplesmente ignoradas pela vasta maioria da população), você conseguiu provocar a curiosidade de muita gente. Vi sua pesquisa mencionada em vários jornais de grande circulação pelo Brasil afora. Claro que muita gente não leu como a metodologia foi aplicada. Claro que muita gente estranhou seu ídolo ficar mal colocado na pesquisa, porque não entendeu seu critério objetivo. Claro que muitos músicos reclamaram que os acordes considerados deveriam ter sido diferentes… e por aí vai. Você fez a pesquisa que quis, e muita gente foi forçada a pensar, por causa do seu esforço hercúleo. Parabéns um milhão de vezes. Gostaria de ter sua autorização para usar a pesquisa em uma série de palestras que – se autorizado – farei em meu centro cultural. Mais informações sobre meu trabalho em http://www.ecai.com.br

    Curtido por 1 pessoa

    1. O autor já definiu, no comentário do dia 22 de junho de 2017 às 20:23:

      “Segui a classificação do Cifras.com.br.”

      Você pode até questionar se a definição do cifras é confiável, o que é outra coisa. Mas, dentro do escopo da pesquisa que foi exposta aqui, o conceito está definido. Inclusive, cumpre critérios importantes, como reproducibilidade e clareza.

      Curtido por 1 pessoa

      1. Sim, e não possui referencial teórico algum… Ou seja, está fazendo uma análise sobre um objeto que ele não domina nem um pouco.

        Curtir

      2. Anônimo, dizer que o autor não domina o objeto é um pouco rude, sobretudo se você não o conhecer (eu não conheço, por sinal). A questão é que não há bases de dados rotuladas por musicólogos pairando por ai, muito menos de música brasileira. Portanto, usar o cifras.com.br é uma *escolha de recorte* da pesquisa. Tem limitações, obviamente, como todas as escolhas de recorte terão, mas não invalida o trabalho como um todo. Como em toda pesquisa, é preciso saber ler os resultados para conseguir tirar proveito dos questionamentos que ela traz, tendo consciência das limitações das escolhas que foram realizadas.

        Curtido por 1 pessoa

      3. Como bem explicado pelo amigo Ricardo Scholz, a metodologia adotada aqui tem limitações mas acredito que foi um avanço no limite do possível para um estudo dessa abrangência, uma vez que não existem bases “oficiais” estruturadas. Quanto à ausência de “referencial teórico”, procure na Capes. Isso aqui é um blog, simplesmente. rsrs

        Curtir

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s