Dicionário de frequência de Sharov. Dicionário de frequência de inglês: "download-grátis-sem-registro

Depois que decidi melhorar meu nível de conhecimento de inglês (principalmente em termos de vocabulário), tornou-se quase imediatamente óbvio que o mais método eficaz aprender palavras - exclusivamente por dicionários de frequência. Mais precisamente, os métodos de aprendizagem e memorização podem ser muito diferentes, mas é precisamente a ordem, a prioridade de certas palavras que devem ser determinadas com base nos dicionários de frequência.

Digamos que você esteja lendo um livro em inglês, e a cada 10 palavras você se depara com uma desconhecida. Imagine, no começo eu escrevia todas as palavras desconhecidas e as abarrotava todos os dias. Mas logo ficou claro que a eficácia de tal estudo é próxima de zero - já que a maioria dessas palavras ocorre apenas uma ou duas vezes em todo o livro e, no vocabulário cotidiano, elas podem ocorrer apenas uma vez por ano.

É aqui que o dicionário de frequência vem em socorro. A ideia é esta: você se depara com uma palavra cuja tradução você não conhece. Primeiro você se lembra: com que frequência isso ocorre com você em geral? Se esta palavra for da categoria “sim, já ouvi muitas vezes, mas não sei como se traduz”, coloque-a com confiança no estudo e na repetição. Se esta palavra é rara para você, ou você não consegue se lembrar dela, então é hora de olhar para o dicionário de frequência.

Existe um serviço maravilhoso Teste seu vocabulário, que permite determinar aproximadamente seu vocabulário comparando seus resultados com os dados de análise estatística disponíveis usando uma pequena amostra (várias dezenas de palavras). Existem também vários gráficos dos resultados, por exemplo, aqui está a distribuição dos participantes (não falantes de inglês) por vocabulário:

Como você pode ver, o nível de vocabulário da maioria das pessoas está em torno de 4.500 palavras. A mediana da distribuição está em torno de 7800 palavras (metade das pessoas tem menos vocabulário, metade tem mais).

Segundo outros estudos linguísticos, um vocabulário de 6 a 7 mil palavras garante a compreensão de 85% da fala em inglês. Assim, podemos concluir que um dicionário de 6.000 palavras pode ser um alvo razoável para começar.

Então, de volta ao nosso algoritmo. Depois de encontrar uma palavra completamente desconhecida para você, procure-a imediatamente no dicionário de frequências. Se, por exemplo, você pretende aumentar seu vocabulário para pelo menos 6.000 mil palavras, e a palavra que procura está apenas nas primeiras 6 mil - coloque-a na repetição.

De fato, depois de aprender os primeiros 6000 em SN, seu vocabulário certamente será maior, devido àquelas palavras que você já conhece e que não foram incluídas no intervalo SN estudado.

Bem, agora a pergunta. Onde posso obter um dicionário de frequência? No Google? Não importa como.

Como regra, os sites de aprendizado de inglês nos oferecem apenas as primeiras mil palavras do NS e você deve pagar por um dicionário mais extenso. Sim, as primeiras buscas por um dicionário de pelo menos 3.000 palavras me causaram uma tempestade de indignação. Mas ainda consegui encontrar um dicionário muito extenso, que, no entanto, não dava para procurar palavras: estava dividido em várias páginas, e o texto, aliás, estava protegido de copiar e colar (ajuda, claro, apenas no caso de crianças em idade escolar ou donas de casa). Portanto, para trabalhar normalmente com o dicionário de frequência, eu (não sem uma certa engenhosidade) retirei o código das páginas e combinei as primeiras 6.000 palavras de que precisava em uma tabela.

Desfrute da sua saúde e viva o livre acesso à informação.

atualizar: ampliou a tabela para 16.000 palavras. Este dicionário deve abranger 98% das frases em inglês.

Nota: alguns números estão faltando na tabela - são nomes próprios, que simplesmente não fazem sentido traduzir.

Informações do patrocinador

Primo4ki.com: eletrônicos e gadgets a preços baixos, vendendo telefones chineses. A qualidade é garantida pela loja.

A segunda versão da lista de frequência

Nesta página você pode obter listas das palavras mais frequentes no idioma russo. Até o momento, Dicionário de Frequência da Língua Russa, ed. LN Zasorina (1977) foi usado com mais frequência como fonte de informação sobre a frequência das palavras russas. No entanto, o corpus, com base no qual foi calculada a frequência das palavras neste dicionário, é muito pequeno para os padrões modernos (cerca de um milhão de palavras). Além disso, a lista está significativamente desatualizada: corresponde à frequência de uso de palavras no período dos anos 20 aos anos 60. Como resultado, o corpus inclui um grande número de fontes ideológicas, por exemplo, as obras de Lenin e Kalinin, Materiais dos 22º e 23º Congressos do PCUS e jornais soviéticos. Palavras soviético E camarada estão incluídos nas primeiras cem palavras russas, junto com palavras de função (elas são mais comuns do que palavras onde, aqui, o seu), palavras partido, revolução, comunista ocorrem com mais frequência do que de volta, ao redor, melhor etc. Finalmente, a lista de palavras do dicionário de Zasorina não existe em formato eletrônico.

A lista de palavras disponível nesta página contém aproximadamente 35.000 palavras com frequência superior a 1 ipm (ocorrências por milhão de palavras, instâncias por milhão de palavras). Há também uma lista mais curta das 5.000 palavras russas mais frequentes. As listas usam a codificação cirílica utf8 e são compactadas com o utilitário WinZip (usuários de Linux ou Mac podem usar StuffIt para descompactar).

A estrutura das listas segue o formato das listas lematizadas do British National Corpus (BNC) criado por Adam Kilgarif, a saber:
número de sequência, frequência (ipm), lema, classe gramatical (classificação BNC).

Palavras com frequência maior que 1 ipm

  • - formas de palavras classificadas por frequência

Lista das 5000 palavras mais frequentes

  • - lemas classificados alfabeticamente
  • - lemas classificados por frequência

Algumas estatísticas sobre o uso de palavras russas

  • O tamanho médio da palavra é de 5,28 caracteres.
  • O comprimento médio da frase é de 10,38 palavras.
  • Os 1000 lemas mais frequentes cobrem 64,0708% do texto.
  • Os 2.000 lemas mais frequentes cobrem 71,9521% do texto.
  • Os 3000 lemas mais frequentes cobrem 76,5104% do texto.
  • Os 5.000 lemas mais frequentes cobrem 82,0604% do texto.

Informações mais completas sobre a correspondência entre frequência de palavras e cobertura do corpus podem ser encontradas em .

A lista é construída com base no corpus representativo da língua russa moderna. Inclui uma seleção de prosa contemporânea, memórias políticas, jornais contemporâneos e não-ficção (cerca de 40 milhões de palavras, a prosa é um pouco mais da metade do volume). Todos os textos do corpus foram escritos em russo entre 1970 e 2002; maioria entre 1980 e 1995, corpus jornalístico 1997-1999 (corpus baseado em textos da Biblioteca Moshkov e corpus jornalístico contemporâneo de A.V. Baranov).

É sabido que textos grandes representam um problema para compilar listas de frequência, pois um texto relativamente longo pode conter um grande número de ocorrências de alguma palavra rara, o que aumentará significativamente sua frequência na lista final. Por exemplo, o corpus usado para compilar esta lista contém uma variação de O Senhor dos Anéis de Tolkien (por Nick Perumov). Embora este romance tenha 250.000 palavras, menos de um por cento de todo o corpus, a frequência de uso da palavra hobbit neste romance coloca nas primeiras mil palavras russas, se a frequência for contada para todos os textos sem restrições de comprimento. Por esse motivo, as listas de frequência foram compiladas assumindo que a amostra de textos grandes é limitada a 10 mil palavras e a amostra de textos de um autor é inferior a 100 mil palavras. Como resultado, o subconjunto do corpus completo usado no cálculo da frequência é de cerca de 16 milhões de palavras.

A distribuição de palavras em textos está longe de ser uniforme. Algumas palavras (por exemplo, preposições) aparecem em muitos textos com frequência bastante previsível. A frequência de outras (por exemplo, pronomes ou verbos mentais) depende significativamente do autor ou gênero do texto, enquanto muitas palavras são "infecciosas": se esta palavra (por exemplo, um nome próprio, designação de uma pessoa por categoria ou posição, ou um termo técnico) for encontrado no texto uma vez, é muito provável que seja repetido lá muitas mais vezes, aumentando assim significativamente sua frequência no documento. existir jeitos diferentes medição de tal variação (Church, K. e Gale, W. (1995) Poisson Mixtures, Revista de Engenharia de Linguagem Natural, 1:2). A maneira mais simples para avaliar o comportamento de uma palavra: calcule o coeficiente de variação, que é calculado como o desvio padrão dividido pela média. O desvio padrão dá o valor absoluto da variação do conjunto de dados (aumenta para palavras com frequência média maior), enquanto o coeficiente de variação compara a distribuição de palavras com frequência média desigual. Os valores de desvio para as 5000 palavras mais frequentes podem ser visualizados. Estrutura do arquivo:
lema, frequência média (ipm), número de textos em que esta palavra ocorre, desvio padrão da frequência em todos os textos, coeficiente de variação, variância.

O corpus, as ferramentas para trabalhar com ele, bem como o corpus paralelo inglês-russo (alinhamento baseado em frases) são descritos, em particular, na seguinte publicação do autor:

Sharoff, Serge, (2002). Significado como uso: exploração de corpora alinhados para o estudo contrastivo da semântica lexical. Proc. da Conferência de Recursos Linguísticos e Avaliação (LREC02). Maio de 2002, Las Palmas, Espanha.

Há também listas de frequência separadas para as seguintes classes de palavras:

A criação do corpus, o desenvolvimento das ferramentas de software correspondentes e as listas de frequência foram financiados por uma bolsa fornecida ao autor pela Fundação Humboldt, Alemanha. A lematização para a análise das formas das palavras do corpus foi realizada com o analisador morfológico Dialing. Como muitas formas de palavras são ambíguas (por exemplo, querida, foram, tornaram-se, para, três, já), a frequência de algumas palavras não é muito confiável, por exemplo, Para tratado como um verbo somente se não for seguido por um substantivo, adjetivo ou pronome, tornar-se sempre tratado como um substantivo cônjuges sempre escolhido cônjuge possível cônjuge E cônjuges(plural). Os critérios para a escolha de uma forma de palavra foram:

  1. a frequência do lema correspondente ( levou, eu vou, apresentar como um substantivo é extremamente improvável, então nesses casos o verbo é escolhido);
  2. frequência comparativa de uma forma particular (ambos os lemas para tornar-se bastante frequente, mas o substantivo, ao contrário do verbo, é muito usado nesta forma; forma está na horaé preciso contar no uso predicativo, enquanto o substantivo aparece em todas as suas outras formas).
Semelhante ao dicionário de sobrenomes de Zasorina, nomes próprios e patronímicos foram filtrados das listas de frequências lematizadas, mas nomes de lugares foram deixados, pois é difícil justificar por que o dicionário de Zasorina deixou Moscou ou americano, mas não Moscou E América. A lista de frequência de formas de palavras não foi filtrada.

053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Página 345 Atas da conferência internacional "Diálogo 2008" DICIONÁRIO DE FREQUÊNCIA DO CORPUS NACIONAL DA RUSSA. ( [e-mail protegido]), Instituto da Língua Russa. V.V. Vinogradov RAS Sharov S.A. ( [e-mail protegido]), University of Leeds, Reino Unido O dicionário contém um dicionário básico representativo da língua russa moderna (2ª metade do século 20 - início do século 21), fornecido com informações sobre a frequência de uso, distribuição estatística por textos e gêneros e pelo tempo de criação dos textos. O dicionário é baseado nos textos do Corpus Nacional da Língua Russa com um volume de 100 milhões de palavras. 1. Introdução Vários dicionários de frequência foram desenvolvidos para a língua russa. O pioneiro foi o dicionário de G. Yosselson, publicado em 1953 em Detroit sobre o material da linguagem principalmente da Rússia pré-revolucionária. Dicionários E.A. Steinfeld (1963), L.N. Zasorina (1977), L. Lenngren (1993) e outros foram criados com base em coleções relativamente pequenas de textos (400 mil - 1 milhão de palavras) e refletem em grande parte as especificidades da língua russa do período soviético: o as frequências das palavras camarada e partido nelas são comparáveis ​​às palavras oficiais, e a palavra pente está faltando. Existem também dicionários especializados, em particular, o dicionário de E.M. Stepanova (1976), dedicado ao vocabulário científico geral. Um ramo separado de dicionários estatísticos são os dicionários de idiomas de Pushkin, Dostoiévski, Griboyedov, Tsvetaeva (Vinogradov 1956-1961, Shaikevich et al. 2003, Polyakov 1999, Belyakov et al. 1996), que descrevem completamente a linguagem de um determinado escritor. O novo dicionário de frequência é universal. Apesar de seu último antecessor direto ter sido lançado há 15 anos (Lenngren 1993), é óbvio que muita coisa mudou durante esse tempo - tanto a linguagem em si quanto a tecnologia para preparar dicionários de frequência. Nosso dicionário visa apresentar um quadro estatístico do uso moderno das palavras (1950-2005), preenchendo, em particular, a lacuna das duas últimas décadas, bem como mostrar as mudanças ocorridas na língua desde 1950. O dicionário é baseado em um corpus de 100 milhões, enquanto os dicionários anteriores contavam com material de 400 mil a 1 milhão de usos de palavras. O corpus nacional (www.ruscorpora.ru, NKRYA 2005) é mais representativo em termos de abrangência do material, pois contém uma coleção equilibrada de textos de diferentes tipos, gêneros e estilos, incluindo textos da diáspora russa. A distribuição de textos no subcorpus da língua russa moderna (desde 1950) por estilos funcionais é mostrada na Tabela 1. Os textos de não ficção pertencem a mais de 50 áreas temáticas (economia e finanças, direito, viagens, etc.) e sua tipologia varia de lei para artigos científicos a entrevistas, instruções e anúncios (mais de 100 tipos no total). Os textos de ficção incluem romances, novelas, contos, ensaios, peças de teatro, contos de fadas, ensaios, cartas literárias, etc. Ficção 36% Jornalismo 42% Outros não-ficção 17% Literatura oral 5% O equilíbrio estilístico do corpus é um pré-requisito para para dar resultados estatísticos confiáveis ​​para as palavras mais frequentes: por exemplo, a composição dos primeiros 20.000 elementos não mudará significativamente se, mantendo a proporção, esses textos forem substituídos por outros ou várias subamostras do corpus forem comparadas. Isso é demonstrado pela experiência de compilar dicionários de frequência de outras 100 milhões de palavras. corpora nacionais, como britânico, tcheco (Leech et al. 2001, Čermák & Křen 2004), bem como corpora Espanhol (Davies 2005). É natural que o dicionário de frequências do NKRYA em muitos aspectos, tanto em questões tecnológicas quanto em conteúdo, seja guiado por essas amostras. 2. Tamanho do corpus e confiabilidade da amostra Os dicionários de frequência existentes para a língua russa foram construídos em corpora relativamente pequenos: os computadores de primeira geração não conseguiam trabalhar com corpora maiores. Curiosamente, as recomendações teóricas desenvolvidas na década de 1970 (Piotrovsky et al. 1972) também provaram que, para uma descrição confiável das 1600-1700 palavras mais frequentes, é suficiente usar um corpus de 400.000 usos de palavras. Esse argumento foi baseado no conceito de intervalo de confiança, amplamente utilizado em estatística e sociologia: se conhecemos o tamanho da amostra e a probabilidade experimental de um evento nessa amostra (ou seja, a frequência de uma palavra em nosso corpus), então podemos calcular o intervalo de confiança da probabilidade desse evento em toda a população (ou seja, a frequência de uso da mesma palavra em todo o espaço da língua). A Tabela 2 dá exemplos da frequência de palavras individuais nos dicionários de Lenngren, Zasorina e Steinfeld em comparação com as frequências do NKRS e os 150 milhões de corpus da língua russa coletados da Internet (para o último, ver Sharoff 2006). Apesar de as palavras pensar, tarefa, amar certamente pertencerem ao cerne da língua (estão entre os 200-500 lemas mais frequentes), em pequenos corpora até sua frequência difere significativamente. A frequência de palavras relativamente menos frequentes (poluição, estudo, fofo) varia ainda mais. Embora a composição do Internet Corpus difira bastante significativamente do NCRL (com um grande número de textos e fóruns técnicos e uma quantidade menor de ficção), as diferenças na frequência dessas unidades entre eles não são tão grandes. Lemma Lenngren Zasorina Steinf. Poder da Internet 202 364 138 422 428 pensar 609 1094 1058 865 818 poluição 69 1 0 9 11 tarefa 499 421 250 228 292 estudar 193 110 0 63 78 amar 415 632 995 549 610 frequência individual 52 210 palavras . Como você pode ver, as recomendações teóricas sobre um tamanho de caixa suficiente neste caso acabam não sendo muito confiáveis. A razão para isso está nas suposições iniciais sobre a distribuição gaussiana normal de frequência de palavras, segundo a qual cada palavra ocorre com a mesma frequência em todos os textos. Se a palavra ocorrer no texto uma vez, então, com uma distribuição normal, isso não afeta a probabilidade de seu uso ali uma segunda vez. Mas, na realidade, este não é o caso. Cada texto tem seu próprio tópico, cujas palavras neste texto serão usadas com muito mais frequência do que a média. Em um texto sobre hobbits, a palavra hobbit será usada tantas vezes quantas palavras auxiliares, o que aumentará significativamente sua frequência em um corpus que incluirá pelo menos um desses textos1. Como resultado, a lista de frequência construída com base no corpus reflete as especificidades daqueles textos que foram incluídos durante sua compilação. A Tabela 2 mostra a imperfeição dos dicionários de frequência construídos em corpora relativamente pequenos, mas simplesmente aumentar o tamanho do corpora também não garante a estabilidade dos resultados. Ao interpretar as listas de um dicionário de frequências, deve-se lembrar que qualquer corpus, por maior que seja, é um subconjunto finito de um conjunto potencialmente infinito de textos em uma determinada língua. Qualquer outra amostra desse subconjunto gerará uma lista ligeiramente diferente, que diferirá em seus elementos menos frequentes. Carcaça maior, reflexiva grande quantidade 1 Kenneth Church chamou essa situação de problema de Noriega (Church 2000), Adam Kilgarriff chamou de problema do búzio, do relativamente raro palavra em inglês denotando um tipo de molusco (Kilgarriff 1997). 346 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Página 347 Dicionário de Frequência do Corpus Nacional da Língua Russa, tipo BNC ou NKRYA), fornece boa confiabilidade para os elementos mais frequentes. No entanto, um aumento adicional no volume de textos em detrimento de sua diversidade (ver, por exemplo, projetos para criar gigacorpus de inglês e chinês contendo mais de um bilhão de usos de palavras de textos de notícias, Cieri & Liberman 2002) pode levar para menos confiabilidade da lista de frequências em tais corpora, mudando seu vocabulário para vocabulário de notícias. Como a tarefa do dicionário de frequência não é apenas classificar as palavras por sua frequência em um corpus separado, mas também determinar o núcleo lexical da língua, é necessário separar as palavras que ocorrem com frequência em muitos textos daquelas cujo comportamento lexical é semelhantes às palavras de Noriega ou do hobbit, e que acidentalmente acabaram nesta ou naquela posição da lista de frequências. Assim, o Corpus Nacional Tcheco usa o conceito de Frequência Média Reduzida (ARF), em que a frequência de uma palavra é ponderada pela distância entre os usos de palavras individuais (Čermak & Křen 2005). Muitos dicionários de frequência (Lenngren, British National Corpus, French Business Vocabulary) usam o coeficiente D introduzido por A. Juilland (Juilland et al. 1970), que leva em conta tanto número de documentos, em que a palavra ocorre e sua frequência relativa nesses documentos: onde µ é a frequência média da palavra em todo o corpus, σ é o desvio padrão dessa frequência em documentos individuais, n é o número de documentos em que essa palavra ocorre. O valor D para palavras que ocorrem na maioria dos documentos é próximo de 100, e para palavras que ocorrem com frequência em apenas um pequeno número de documentos, é próximo de 0. A lista de frequência do dicionário de Lenngren é até classificada pelo valor do produto deste coeficiente pela frequência média da palavra. Devido ao fato de que o status teórico deste trabalho não é claro, não consideramos apropriado classificar nosso dicionário por ele. No entanto, a sua indicação para cada palavra permite avaliar a sua especificidade para cada área temática. Por exemplo, as palavras assustador, específico e bruto têm aproximadamente a mesma frequência (21 ocorrências por milhão de palavras), mas específico tem um coeficiente D de 66, bruto tem 18 e assustador tem 78, o que significa que a última palavra significativo para maisáreas temáticas e (ceteris paribus) tem uma grande chance de um lugar em um dicionário não especializado. 3. A estrutura do dicionário O conceito de dicionário envolve a publicação de uma versão "em papel" acompanhada de uma versão eletrônica, que representa o dicionário de frequências em um volume mais completo. A parte do vocabulário contém as seguintes seções: I. Vocabulário geral ● lista alfabética de lemas ● lista de frequência de lemas ● distribuição de lemas por estilos funcionais: dicionário de ficção de frequência, dicionário de vocabulário significativo de ficção dicionário de frequência de jornalismo, dicionário de jornal significativo e dicionário de frequência de vocabulário de notícias outro não-ficção, dicionário de vocabulário significativo dicionário de frequência ao vivo Discurso oral, um dicionário de vocabulário significativo de fala oral ao vivo ● lista alfabética de formas de palavras II. Classes gramaticais ● lista de frequência de substantivos ● lista de frequência de verbos ● lista de frequência de adjetivos ● lista de frequência de advérbios e predicativos ● lista de frequência de pronomes (substantivos, adjetivos, advérbios, predicados) ● lista de frequência de lemas de classes auxiliares do discurso III . mesas auxiliares 347 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Página 348 Lyashevskaya O.N., Sharov S.A. ● dados sobre a frequência das aulas de parte do discurso e outras informações estatísticas IV. Nomes próprios e abreviaturas ● lista alfabética de lemas A lista alfabética de lemas contém o nome do lema, a classe gramatical, a frequência geral do lema, o número de documentos em que ocorre e o coeficiente de variação D. O a frequência total caracteriza o número de ocorrências por milhão de palavras do corpus, ou ipm (instâncias por milhão de palavras). Isso é feito para facilitar a comparação da frequência de uma palavra em diferentes corpora, que podem variar bastante de tamanho. Por exemplo, se a palavra poder ocorre 55 vezes em um corpus de 400.000 palavras, 364 vezes em um corpus de um milhão de palavras e 40.598 vezes em um corpus de 100.000.000 palavras no idioma russo moderno e 55.673 vezes em um grande 135.000.000 de palavras corpus de palavras do NCRL, então sua frequência em ipm será 137,5 , 364,0, 372,06 e 412,39, respectivamente. A lista alfabética da edição eletrônica inclui 60.000 lemas mais frequentes. A lista de lemas, classificados por frequência, inclui o nome do lema, classe gramatical, frequência geral do lema, número de documentos, fator D e distribuição de frequência por década. A lista de frequência inclui 20.000 dos lemas mais frequentes. Os dicionários de frequência de estilos funcionais são compilados com base em subcorpus de ficção, jornalismo, outros não-ficção e discurso oral. A lista inclui 5.000 lemas mais frequentes desses subcorpus. A lista dos lemas mais típicos para cada tipo de texto foi selecionada com base na comparação da frequência de lemas nesses textos e no restante do corpus. O critério de log-verossimilhança foi usado como uma métrica de comparação, calculada com base na seguinte matriz: fórmula (Rayson & Garside 2000): Dicionários de vocabulário significativo para diferentes estilos funcionais incluem 500 lemas cada. A lista alfabética de formas de palavras inclui todas as formas de palavras do corpus com frequência superior a 0,1 ipm (cerca de 15 mil no total); a frequência geral da forma da palavra é dada. Formas de palavras homônimas são marcadas com *. Na seção Partes do discurso, a lista de frequência dos lemas é dividida em seis sublistas: substantivos, verbos, adjetivos, advérbios e predicados, pronomes e partes funcionais do discurso. Para cada lema, sua frequência geral e classificação (número de série) na lista geral são indicados. Cada lista contém 1 mil dos lemas mais frequentes. As tabelas auxiliares incluem dados sobre a frequência das aulas de parte do discurso, outras categorias gramaticais, bem como informações sobre a cobertura do texto com lexemas, o comprimento médio das palavras, formas de palavras e frases. O dicionário termina com uma lista alfabética de nomes próprios e abreviaturas. Os nomes próprios são separados da parte principal do vocabulário, pois formam um grupo muito menos estável estatisticamente, e sua frequência depende muito da escolha dos textos do corpus e de seu cronotopo. Em Lengren 1993, expressa-se a opinião de que a inclusão de nomes próprios em um dicionário de frequência em uma base geral inevitavelmente leva à sua obsolescência prematura. Para obter uma lista de nomes próprios e abreviaturas da concordância do corpus, foram selecionados substantivos e abreviaturas cuja grafia em textos com letra maiúscula ultrapassou o limite de 95%, cf. Rússia, Smirnov, Usina Distrital Estadual, Ministério das Relações Exteriores, Código do Trabalho.2 O dicionário inclui a parte nuclear desta lista, numerando 3.000 das unidades mais frequentes. De acordo com a tradição que se desenvolveu para publicações deste tipo, as páginas do dicionário contêm o título “ Fatos interessantes»: são publicadas listas das palavras mais populares de vários grupos lexicais ( dias da semana, condições do tempo, cores, verbos de movimento, etc.), bem como as formas de palavras mais longas e a lista de frequência de sinais de pontuação. 2 Notamos em particular que adjetivos como Hristov, Petin, Kostroma/Kostroma pertencem ao vocabulário geral. 348 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Página 349 Dicionário de Frequência do Corpus Nacional da Língua Russa 6429 traje 2288 capa 4890 botas 2179 saia 3696 casaco 1904 sobretudo 3696 camisa 1894 traje* 3410 jaqueta 1826 sapatos 333 1633 jeans 3041 cachecol 1585 luva 2962 jaqueta 1522 casaco de pele 2955 calças 1356 uniforme 2840 calças 1251 boné 2686 chapéu 1235 suéter 2617 boina 1134 botas de feltro Como exemplo, na Tabela 3 damos as frequências dos substantivos que denotam roupas e sapatos. Como é de se esperar, a lista reflete, por um lado, a “tipicidade” dos elementos do guarda-roupa (as botas de feltro ocupam apenas o 26º lugar na lista) e, por outro lado, sua “significância” na descrição da aparência de uma pessoa em textos (um terno é mais perceptivamente um item dedicado do que botas). 4. Preparação do material vocabular As listas básicas do dicionário de frequências foram obtidas automaticamente, por meio da marcação metatextual e léxico-gramatical do corpus. Com base na informação metatextual, as listas de frequência foram construídas e comparadas entre si em amostras separadas do corpus (por estilos funcionais, no momento em que o texto foi criado). Outro tipo de marcação, léxico-gramatical, permite estabelecer a forma inicial de uma palavra (lema), sua classe gramatical e características gramaticais como maiúsculas e minúsculas, número, tempo, etc.3 Isso possibilitou a coleta de dados sobre a frequência não apenas de formas de palavras individuais, mas também de lexemas, bem como o uso de certos categorias gramaticais. Ao criar este dicionário, foi utilizada uma variante da anotação léxico-gramatical do corpus com resolução automática de homonímia morfológica. A língua russa como uma língua com rica inflexão cria dificuldades adicionais para os compiladores do dicionário de frequência, uma vez que muitas formas de palavras nos textos são homônimas (cf. Faith). No entanto, em um dicionário de frequência, a forma original da palavra, ou lema, deve ser atribuída sem ambiguidade a qualquer forma de palavra. Nos dicionários da geração anterior (Zasorina 1977, Lenngren 1993), a homonímia era resolvida manualmente, pois o volume do corpus processado era insignificante. É óbvio que tal solução não é adequada para um 100 milionésimo corpus. Ao compilar este dicionário, foi tida em conta a experiência dos colegas checos, que tiveram de refinar análise morfológica ator, reabastecer o dicionário e realizar a edição manual. Inicialmente, o corpus NCRS foi marcado pelo analisador morfológico Mystem (Segalovich, Maslov 1998). A ambigüidade na marcação léxico-gramatical foi resolvida usando o programa de A.V. Sokirko, que usa o modelo trigrama e um subcorpus de treinamento com homonímia removida manualmente (Sokirko, Toldova 2005). As palavras não pertencentes ao dicionário também apresentam um problema significativo para a lematização (Lyashevskaya et al. 2007). Se a palavra não estiver no dicionário gramatical do analisador morfológico, então uma ou mais hipóteses sobre a forma original da palavra e suas características gramaticais são atribuídas a ela. Como resultado, 3 Princípios de lematização e composição de partes do discurso são determinados pelo padrão morfológico do corpus (NKRYA 2005), que geralmente corresponde aos princípios do Dicionário de Gramática Russa (Zaliznyak 1977). Algumas características da lematização estão relacionadas ao fato de que a coleta de dados ocorre principalmente no modo automático. Observe que apenas a marcação palavra por palavra é levada em consideração: frases fixas, preposições compostas e outras unidades lexicais não monopalavras (cf. Ano Novo, durante, no entanto, umas às outras) não estão incluídas no dicionário. 349 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Página 350 Lyashevskaya O.N., Sharov S.A. O dicionário inclui “lemas” como gratidão (cf. a palavra forma de gratidão), Jansny (cf. Jansen), Barclay (cf. Barclay). Enquanto isso, a parcela de formas de palavras não dicionarizadas no NCSL é de 3% de todos os usos de palavras e 45% da lista de formas de palavras do corpus. Para formas de palavras frequentes não dicionarizadas, usamos programas de pós-processamento para a marcação morfológica de NKRY, compilados por B.P. Kobritsov e G.K. Bronnikov, bem como os resultados da validação do trabalho desses programas obtidos por O.N. Lyashevskaya e D.K. Bronnikova (Lyashevskaya 2007, Bronnikova 2007). Duas abordagens para a lematização de palavras não dicionarizadas se mostraram as mais eficazes: agrupamento de hipóteses sobre o lema e o tipo de paradigma (o mais provável para uma forma de palavra é a análise que ocorre em outras formas de palavras não dicionáveis, assim, as formas das palavras “procuram” seus vizinhos de acordo com o paradigma flexional ) e destacando os prefixos mais produtivos. Como a resolução automática de homonímias e a interpretação de formas não dicionarizadas permitem certo erro, ainda que insignificante, os homônimos incluídos nas primeiras 20 mil palavras de frequência foram submetidos a verificação manual adicional. *** Os autores agradecem a V.A. Plungyan, A.Ya. Shaikevich, bem como E.A. Grishina, B.P. Kobritsov, E. V. Rakhilina, D. V. Sichinava e outros participantes do seminário NCRL, que participaram da discussão dos princípios de criação de um dicionário. Agradecemos a O. Uryupina, D. e G. Bronnikovs, B. Kobritsov, funcionários da Yandex LLC A. Abroskin, N. Grigoriev, A. Sokirko por sua ajuda na coleta e processamento do material. Referências 1. Bronnikova D.K. Comparação de algoritmos de lematização com base no material do Russian National Corpus. Trabalho de graduação. M.: RGGU, 2007. 2. Belyakova I.Yu., Olovyannikova I.P., Revzina O.G. (comp.). Dicionário da linguagem poética de Marina Tsvetaeva. Em 4 volumes. M: Casa Museu de Marina Tsvetaeva, 1996. 3. Vinogradov V.V. (ed. responsável). Dicionário da língua de Pushkin. T. I - IV. M., 1956-1961. 4. Zaliznyak A.A. Dicionário gramatical da língua russa: flexão. M., 1977; 4ª ed.: M.: Dicionários russos, 2003. 5. Zasorina L.N. (ed.). Dicionário de frequência da língua russa. Moscou: língua russa, 1977. 6. Löngren L. (ed.). Dicionário de Frequência da Língua Russa Moderna. Uppsala, 1993. 7. Lyashevskaya O.N. Sobre o problema da lemmatização de palavras não dicionáveis ​​// Linguística Computacional e Tecnologias Inteligentes: Anais da Conferência Internacional "Diálogo 2007". M, 2007. 8. Lyashevskaya O.N., Kobritsov B.P., Sichinava D.V. Automatizando a construção de um dicionário baseado em uma matriz de formas de palavras não dicionarizadas // Internet Mathematics 2007. Ekaterinburg, 2007. 9. NCRL: National Corpus of the Russian Language 2003-2005: Results and Prospects. M.: Indrik, 2005. 10. Piotrovsky R.G., Bektaev K.B., Piotrovskaya A.A. Linguística matemática. M.: pós-graduação, 1972. 11. Polyakov A.E. Electronic Dictionary of the Writer's Language (no exemplo da linguagem de A.S. Griboedov) // Proceedings of the International Seminar Dialogue-99 on Computer Linguistics and its Applications. Tarusa, 1999. M., 1999. T. 2. S. 230-236. 12. Segalovich I., Maslov M.. Análise e síntese morfológica russa com a geração de modelos de flexão para palavras não descritas no dicionário // Anais do seminário internacional Dialog'98 sobre linguística computacional e suas aplicações. Kazan, 1998. V.2. pp. 547–552. 13. Sokirko A.V., Toldova S.Yu. Comparação da eficácia de dois métodos para remover a ambigüidade lexical e morfológica da língua russa // Conferência Internacional "Corpus Linguistics 2004". S.- Pb., 2004. 14. Stepanova E.M. Dicionário de frequência do vocabulário científico geral. Moscou, 1976. 15. Shaikevich A.Ya., Andryushchenko V.M., Rebetskaya N.A. Dicionário estatístico da língua de Dostoiévski. M.: Línguas cultura eslava, 2003. 16. Steinfeld E.A. Dicionário de Frequência do Russo Moderno linguagem literária. Tallinn, 1963. 17. Čermák F., Křen M. (eds.). Frekvenční slovník češtiny (Dicionário de frequência do tcheco). Praha: NLN, 2004. 18. Čermák F., Křen M. Dicionários de frequência baseados em corpus de nova geração: O caso de Czech // International Journal of Corpus Linguistics, 10, 2005. P. 453-467. 19. Igreja K.W. Estimativas empíricas de adaptação: a chance de dois Noriegas está mais próxima de p/2 do que de p2 // Proceedings of the 18th Сonference on Computational Linguistics (COLING). Saarbrücken, Alemanha, 2000. Vol. 1. P. 180-186. 20. Cieri Ch., Liberman M. Criação e distribuição de recursos linguísticos no Linguistic Data Consortium // Proceedings of LREC 02. Las Palmas, Espanha, 2002. C. 1327-1333. 21. Davies M. Um Dicionário de Frequência do Espanhol: Vocabulário Básico para Alunos. London-N.Y.: Routledge, 2005. 22. Josselson H.H. A contagem de palavras russas e análise de frequência de categorias gramaticais do russo literário padrão. Detroit: Wayne University Press, 1953. 23. Juilland A., Brodin D., Davidovitch C. Frequency Dictionary of French Words. The Hague-Paris: Mouton, 1970. 24. Kilgarriff A. Colocando frequências no dicionário // International Journal of Lexicography, 10 (2), 1997. P. 135-155. 25. Leech G., Rayson P., Wilson A. Frequências de palavras em inglês falado e escrito: com base no British National Corpus. Londres: Longman, 2001. 26. Rayson P., Garside R. Comparando corpora usando perfis de frequência // Procedimentos do Workshop de Comparação de Corpora no ACL 2000. Hong Kong, 2000. P. 1-6. 27. Sharoff S. Criando corpora de uso geral usando consultas automatizadas em mecanismos de busca // Baroni M., Bernardini S. (eds.), WaCky! Papéis de trabalho na Web como Corpus. Bolonha: Gedit, 2006. http://wackybook.sslmit.unibo.it. 351

Em que as palavras mais comuns na fala são selecionadas (geralmente dentro de alguns milhares). Como um manual para professores, foi publicado o “Dicionário de Frequência da Língua Literária Russa Moderna” de E. A. Steinfeldt (1963). O dicionário contendo 2.500 palavras fornece uma lista de palavras por frequência, listas de palavras por partes do discurso, indicando a frequência de algumas formas e uma lista geral de palavras em ordem alfabética. Em 1968, o dicionário “2380 palavras mais comuns do russo discurso coloquial”, preparado por professores de língua russa da Universidade da Amizade dos Povos com o mesmo nome. Patrice Lumumba. Mais completo em composição é o dicionário de frequências publicado nos EUA por G.G. Yosselson (1953), construído sobre uma variedade de materiais de gênero com um número total de palavras de cerca de um milhão e contendo 5.230 palavras dadas em duas listas; na primeira, o número de palavras indicadas é dividido em seis grupos em ordem decrescente de frequência de uso; na segunda, as palavras são dispostas em ordem alfabética, indicando o número do grupo em que a palavra se apresenta na primeira lista . Ao avaliar e utilizar este dicionário, deve-se ter em mente que quase metade dos textos pesquisados ​​pertencem ao período pré-revolucionário (dos quais 25% ao período de 1830-1900), portanto, as conclusões linguoestatísticas decorrentes deste material em muitos casos não refletem o uso moderno de palavras. Uma seleção especial de material está disponível em dois dicionários de frequência Fr. Malirzha. Um deles (1951) foi criado a partir de material de jornais e revistas soviéticas de 1948, o outro (1961) foi construído a partir da análise de textos de cartas de escolares soviéticos para tchecoslovacos; ambos têm objetivos educacionais. Em 1970, o “Dicionário de Frequência do Vocabulário Científico Geral” foi publicado sob a direção de E. M. Stepanova, e em 1971 “O Dicionário de Frequência da Linguagem do Jornal” de G. P. Polyakova e G. Ya. Solganik. Dicionário etimológico. Um dicionário contendo palavras com uma explicação de sua origem. O primeiro dicionário etimológico russo foi “O Korneslov da língua russa, comparado com todos os principais dialetos eslavos e com vinte e quatro línguas estrangeiras” f. S. Shimkevich (1842). O dicionário desenvolveu 1378 raízes de palavras russas cotidianas, em muitos casos há comparações arbitrárias e declarações errôneas. Próximo em ordem cronológica foi “Experiência do Dicionário da Língua Russa em Comparação com as Línguas Indo-Europeias” de M. Ieyumov (1880), que também estava em um nível teórico baixo. De qualidade superior, embora não livre de explicações incorretas, foi o “Dicionário Etimológico Comparativo da Língua Russa” de N. V. Goryaev (1892). A mais famosa das publicações pré-revolucionárias é o Dicionário Etimológico da Língua Russa de A. G. Preobrazhensky (durante a vida do autor, 14 edições foram publicadas em 1910-1916, combinadas em dois volumes; o final foi publicado em 1949 no Anais do Instituto da Língua Russa da Academia de Ciências da URSS ”; o dicionário foi totalmente republicado pelo método fotomecânico). O dicionário contém uma explicação da etimologia de muitas palavras russas comumente usadas e algumas emprestadas. Esses e outros são agrupados por palavras primitivas ou por raízes. Com palavras raras, geralmente são dadas referências a escritores. Embora o dicionário esteja longe de ser completo e contenha muitas explicações desatualizadas ou simplesmente incorretas para o nosso tempo, ele ainda serve como um importante guia de etimologia. Em 1961, o “Dicionário Etimológico Conciso da Língua Russa” de N. M. Shansky, V. V. Ivanov e T. V. Shanskaya foi publicado, editado por S. G. Barkhudarov. Dicionário publicado como um guia do professor de ciências popular ensino médio, contém uma interpretação etimológica palavras comuns língua literária russa moderna, incluída em sua estoque ativo. Ao explicar as palavras russas, geralmente é fornecida a sequência do processo de formação de palavras (a segunda edição foi publicada em 1971, a terceira, corrigida e complementada, em 1975). Para a prática escolar, o mesmo julgamento “Dicionário Etimológico Escolar”, criado por uma equipe de linguistas do Instituto Pedagógico do Estado de Kalinin sob a liderança de G. M. Mileikovskaya e considerando 180 raízes (1957), e o dicionário “Por que não?” L. V. Uspensky, contendo histórias divertidas sobre a vida das palavras (1967). Em 1970, apareceu o Dicionário Etimológico da Língua Russa de G. P. Tsyganenke, publicado em Kiev. O dicionário tem caráter de ciência popular e pretende ser uma ferramenta de referência para professores de línguas e alunos do ensino médio. Desde 1963, o “Dicionário Etimológico da Língua Russa” começou a ser publicado em edições separadas, cujo trabalho está sendo realizado no escritório etimológico da Universidade Estadual de Moscou sob a direção de N. M. Shansky. O dicionário, destinado aos filólogos, deverá ser publicado em oito volumes principais e dois adicionais, nos quais será dada a etimologia dos dialetismos e das palavras obsoletas. A pesquisa etimológica no campo da língua russa também é realizada no exterior. Em 1950-1958 em Heidelberg, uma edição de três volumes foi publicada em edições separadas. “Dicionário Etimológico Russo” de M. Fasmer (em 1964-1973 sob o título “Dicionário Etimológico da Língua Russa” com acréscimos do tradutor O. N. Trubachev, foi publicado em russo em quatro volumes em Moscou). Este dicionário é o mais extenso dos dicionários deste tipo e contém, além de substantivos comuns, um grande número de nomes de pessoas e nomes geográficos. No entanto, o dicionário não está isento de imprecisões, erros, comparações injustificadas. Atualmente, começou a publicação do Dicionário Etimológico de Línguas Eslavas em vários volumes. Proto-Slavic Lexical Fund”, editado por O. N. Trubachev. A primeira edição (1974) contém um prefácio que descreve os princípios da reconstrução do vocabulário protoeslavo, listas de referências e o próprio dicionário. O tipo de dicionários etimológicos é adjacente ao “Breve dicionário toponímico” de V. A. Nikonov, contendo informações sobre a origem e o destino de cerca de 4.000 nomes dos maiores objetos geográficos da URSS e países estrangeiros(1966) e também

“Dicionário de nomes pessoais russos” de N. A. Petrovsky, que inclui cerca de 2.600 nomes pessoais e fornece informações sobre sua origem (1967), e “Dicionário de nomes de habitantes (RSFSR)” (editado por A. M. Babkin), no qual coletou cerca de 6.000 nomes de habitantes assentamentos Federação Russa e nomes de residentes das capitais das repúblicas da União (1964), “Dicionário de nomes de residentes da URSS” (editado por A. M. Babkin e E. A. Levashov), no apêndice ao qual a primeira experiência de coleta de nomes de residentes de cidades em países estrangeiros também é dada (1975 G.).

DICIONÁRIO DE FREQUÊNCIA

tipo de dicionário (Ver Dicionário) (geralmente monolíngue), em que as unidades lexicais são caracterizadas em termos do grau de seu uso na totalidade dos textos que são representativos da língua como um todo, ou de um estilo funcional separado (ver Estilo), ou de um autor . Dependendo do tipo, as unidades lexicais diferem em Ch. formas de palavras, palavras (lexemas), bases de palavras (usadas em ciência da computação), palavras em certos significados (cap. semântico com.), frases. Existem características absolutas e relativas do uso de uma unidade lexical ( x). A característica absoluta é a frequência ( f) da unidade lexical dada ( x), igual ao número de usos x no conjunto de textos pesquisados f(x). Polegada. qualquer f(x), ou a frequência normalizada

Onde N- o número de palavras estudadas do texto. A característica relativa do uso de uma unidade lexical é ou sua classificação (o número de unidades lexicais que em um determinado Ch. com. tem uma característica absoluta de uso maior ou igual à característica absoluta de uma determinada unidade lexical), ou algum sinal pelo qual a classificação pode ser calculada com mais ou menos precisão. Na maioria Ch. características absolutas e relativas são dadas. Ch.s. são usados ​​para criar métodos eficazes de ensino de idiomas, para destacar palavras-chave (em ciência da computação), para criar códigos racionais (em teoria da comunicação).

Aceso.: Ermolenko G.V., Estatística linguística. Breve ensaio e índice bibliográfico, Alma-Ata, 1970; Steinfeldt E. A., Frequency Dictionary of the Modern Russian Literary Language, M., 1973; Dicionário de Frequência da Língua Russa, ed. Editado por L. N. Zasorina. Moscou, 1977. Kučera N., Francis W., Análise computacional da atualidade inglês americano, Providência, 1967; Kvantitativni lingvistika, Statni knihovna ČSSR, 1964-1972; Meier H., Deutsche Sprachstatistik, Bd 1-2, Hildesheim, 1964; Dictionnaire des fréquences vocabulaire littéraire des XIX et XX siecles, v. 1-4, P.-Nancy, 1971 (Centre de recherche pour un trésor de la langue française); Bailey R., Doležel L., Uma bibliografia anotada de estilística estatística, Ann Arbor, 1968.