Jak skonfigurować format tekstu rozdzielanego w potoku danych usługi Data Factory w usłudze Microsoft Fabric - Microsoft Fabric (2023)

  • Artykuł

W tym artykule opisano sposób konfigurowania formatu tekstu rozdzielanego w potoku danych usługi Data Factory w usłudze Microsoft Fabric.

Ważne

Usługa Microsoft Fabric jest obecnie dostępna w wersji zapoznawczej.Te informacje odnoszą się do produktu w wersji wstępnej, który może zostać znacząco zmodyfikowany przed jego wydaniem. Firma Microsoft nie udziela żadnych gwarancji, wyrażonych ani domniemanych w odniesieniu do informacji podanych tutaj. Zapoznaj się z dokumentacją Azure Data Factory dotyczącą usługi na platformie Azure.

Obsługiwane funkcje

Format tekstu rozdzielanego jest obsługiwany w przypadku następujących działań i łączników jako źródła i miejsca docelowego.

KategoriaŁącznik/działanie
Obsługiwany łącznikAmazon S3
Azure Blob Storage
Usługa Azure Data Lake Storage 1. generacji
Azure Data Lake Storage Gen2
Google Cloud Storage
HTTP
Obsługiwane działaniedziałanie Kopiuj
działanie Lookup
Działanie GetMetadata
Działanie usuwania

Rozdzielany format tekstu w działaniu kopiowania

Aby skonfigurować format tekstu rozdzielanego, wybierz połączenie w źródle lub miejscu docelowym działania kopiowania potoku danych, a następnie wybierz pozycję RozdzielanyTekst na liście rozwijanej Format pliku. Wybierz pozycję Ustawienia , aby uzyskać dalszą konfigurację tego formatu.

Jak skonfigurować format tekstu rozdzielanego w potoku danych usługi Data Factory w usłudze Microsoft Fabric - Microsoft Fabric (1)

Format tekstu rozdzielanego jako źródło

Po wybraniu pozycji Ustawienia w sekcji Format pliku w oknie dialogowym Ustawienia formatu pliku zostaną wyświetlone następujące właściwości.

Jak skonfigurować format tekstu rozdzielanego w potoku danych usługi Data Factory w usłudze Microsoft Fabric - Microsoft Fabric (2)

  • Typ kompresji: koder kompresji używany do odczytywania rozdzielonych plików tekstowych.Możesz wybrać spośród typów None, bzip2, gzip, deflate, ZipDeflate, TarGzip lub tar na liście rozwijanej.

    Jeśli wybierzesz opcję ZipDeflate jako typ kompresji, zachowaj nazwę pliku zip jako folder zostanie wyświetlony w obszarze Ustawienia zaawansowane na karcie Źródło .

    • Zachowaj nazwę pliku zip jako folder: wskazuje, czy zachować nazwę źródłowego pliku zip jako strukturę folderów podczas kopiowania.
      • Jeśli to pole jest zaznaczone (wartość domyślna), usługa zapisuje rozpakowane pliki do <specified file path>/<folder named as source zip file>/.
      • Jeśli to pole jest niezaznaczone, usługa zapisuje rozpakowane pliki bezpośrednio do <specified file path>. Upewnij się, że nie masz zduplikowanych nazw plików w różnych źródłowych plikach zip, aby uniknąć wyścigów ani nieoczekiwanych zachowań.

    W przypadku wybrania opcji TarGzip/tar jako typu kompresji zachowaj nazwę pliku kompresji jako folder zostanie wyświetlony w obszarze Ustawienia zaawansowane na karcie Źródło .

    • Zachowaj nazwę pliku kompresji jako folder: wskazuje, czy zachować nazwę skompresowanego pliku źródłowego jako strukturę folderów podczas kopiowania.
      • Jeśli to pole jest zaznaczone (wartość domyślna), usługa zapisuje dekompresowane pliki do <specified file path>/<folder named as source compressed file>/.
      • Jeśli to pole jest niezaznaczone, usługa zapisuje dekompresowane pliki bezpośrednio do <specified file path>. Upewnij się, że nie masz zduplikowanych nazw plików w różnych źródłowych plikach zip, aby uniknąć wyścigów ani nieoczekiwanych zachowań.
  • Poziom kompresji: określ współczynnik kompresji po wybraniu typu kompresji. Możesz wybrać jedną z opcji Optymalna lub Najszybsza.

    • Najszybsza: operacja kompresji powinna zostać ukończona tak szybko, jak to możliwe, nawet jeśli wynikowy plik nie jest optymalnie skompresowany.
    • Optymalny: operacja kompresji powinna być optymalnie skompresowana, nawet jeśli operacja trwa dłużej. Aby uzyskać więcej informacji, zobacz temat Poziom kompresji.
  • Ogranicznik kolumn: znaki używane do oddzielania kolumn w pliku. Wartość domyślna to przecinek (,).

  • Ogranicznik wierszy: określ znak używany do oddzielania wierszy w pliku. Dozwolony jest tylko jeden znak. Wartość domyślna to kanał informacyjny \nwiersza .

  • Kodowanie: typ kodowania używany do odczytu/zapisu plików testowych. Wartość domyślna to UTF-8.

  • Znak ucieczki: pojedynczy znak do ucieczki cudzysłowów wewnątrz wartości cytowanej. Wartość domyślna to ukośnik\ odwrotny. Gdy znak ucieczki jest zdefiniowany jako pusty ciąg, znak cudzysłowu musi być również ustawiony jako pusty ciąg, w którym przypadku upewnij się, że wszystkie wartości kolumn nie zawierają ograniczników.

  • Znak cudzysłowu: pojedynczy znak do cudzysłowu wartości kolumn, jeśli zawiera ogranicznik kolumn. Wartość domyślna to podwójne cudzysłowy". Gdy znak cudzysłowu jest zdefiniowany jako pusty ciąg, oznacza to, że nie ma znaku cudzysłowu, a wartość kolumny nie jest cytowana, a znak ucieczki jest używany do ucieczki ogranicznika kolumny i samego siebie.

  • Pierwszy wiersz jako nagłówek: określa, czy należy traktować/tworzyć pierwszy wiersz jako wiersz nagłówka z nazwami kolumn. Dozwolone wartości są zaznaczone i niezaznaczone (wartość domyślna). Gdy pierwszy wiersz jako nagłówek jest niezaznaczony, zwróć uwagę na podgląd danych interfejsu użytkownika i dane wyjściowe działania wyszukiwania automatycznie generują nazwy kolumn jako Prop_{n} (począwszy od 0), działanie kopiowania wymaga jawnego mapowania ze źródła na miejsce docelowe i lokalizuje kolumny według porządkowych (począwszy od 1).

  • Wartość null: określa reprezentację ciągu wartości null. Wartość domyślna to pusty ciąg.

W obszarze Ustawienia zaawansowane na karcie Źródło są wyświetlane dalsze właściwości powiązane z formatem tekstu rozdzielanego.

  • Pomiń liczbę wierszy: wskazuje liczbę brakliwych wierszy do pominięcia podczas odczytywania danych z plików wejściowych. Jeśli określono wartość Pomiń liczbę wierszy i Pierwszy wiersz jako nagłówek , najpierw pominięto wiersze, a następnie informacje nagłówka są odczytywane z pliku wejściowego.

Format tekstu rozdzielanego jako miejsce docelowe

Po wybraniu pozycji Ustawienia w sekcji Format pliku w oknie dialogowym Ustawienia formatu pliku zostaną wyświetlone następujące właściwości.

Jak skonfigurować format tekstu rozdzielanego w potoku danych usługi Data Factory w usłudze Microsoft Fabric - Microsoft Fabric (3)

  • Typ kompresji: koder kompresji używany do zapisywania rozdzielonych plików tekstowych.Możesz wybrać spośród typów None, bzip2, gzip, deflate, ZipDeflate, TarGzip lub tar na liście rozwijanej.

  • Poziom kompresji: określ współczynnik kompresji po wybraniu typu kompresji. Możesz wybrać jedną z opcji Optymalna lub Najszybsza.

    • Najszybsza: operacja kompresji powinna zostać ukończona tak szybko, jak to możliwe, nawet jeśli wynikowy plik nie jest optymalnie skompresowany.
    • Optymalny: operacja kompresji powinna być optymalnie skompresowana, nawet jeśli operacja trwa dłużej. Aby uzyskać więcej informacji, zobacz temat Poziom kompresji.
  • Ogranicznik kolumn: znaki używane do oddzielania kolumn w pliku. Wartość domyślna to przecinek (,).

  • Ogranicznik wierszy: znak używany do oddzielania wierszy w pliku. Dozwolony jest tylko jeden znak. Wartość domyślna to kanał informacyjny \nwiersza .

  • Kodowanie: typ kodowania używany do pisania plików testowych. Wartość domyślna to UTF-8.

  • Znak ucieczki: pojedynczy znak do ucieczki cudzysłowów wewnątrz wartości cytowanej. Wartość domyślna to ukośnik\ odwrotny. Gdy znak ucieczki jest zdefiniowany jako pusty ciąg, znak cudzysłowu musi być również ustawiony jako pusty ciąg, w którym przypadku upewnij się, że wszystkie wartości kolumn nie zawierają ograniczników.

  • Znak cudzysłowu: pojedynczy znak do cudzysłowu wartości kolumn, jeśli zawiera ogranicznik kolumn. Wartość domyślna to podwójne cudzysłowy". Gdy znak cudzysłowu jest zdefiniowany jako pusty ciąg, oznacza to, że nie ma znaku cudzysłowu, a wartość kolumny nie jest cytowana, a znak ucieczki jest używany do ucieczki ogranicznika kolumny i samego siebie.

  • Pierwszy wiersz jako nagłówek: określa, czy należy traktować/tworzyć pierwszy wiersz jako wiersz nagłówka z nazwami kolumn. Dozwolone wartości są zaznaczone i niezaznaczone (wartość domyślna). Gdy pierwszy wiersz jako nagłówek jest niezaznaczony, zwróć uwagę na podgląd danych interfejsu użytkownika i dane wyjściowe działania wyszukiwania automatycznie generują nazwy kolumn jako Prop_{n} (począwszy od 0), działanie kopiowania wymaga jawnego mapowania ze źródła na miejsce docelowe i lokalizuje kolumny według porządkowych (począwszy od 1).

  • Wartość null: określa reprezentację ciągu wartości null. Wartość domyślna to pusty ciąg.

W obszarze Ustawienia zaawansowane na karcie Miejsce docelowe wyświetlane są dalsze właściwości powiązane z formatem tekstu rozdzielanego.

  • Zacytuj cały tekst: Załącz wszystkie wartości w cudzysłowie.

  • Rozszerzenie pliku: rozszerzenie pliku używane do nazywania plików wyjściowych, na przykład .csv, .txt.

  • Maksymalna liczba wierszy na plik: podczas zapisywania danych w folderze można zapisać w wielu plikach i określić maksymalną liczbę wierszy na plik.

  • Prefiks nazwy pliku: ma zastosowanie, gdy skonfigurowano maksymalną liczbę wierszy na plik . Określ prefiks nazwy pliku podczas zapisywania danych w wielu plikach, co spowodowało następujący wzorzec: <fileNamePrefix>_00000.<fileExtension>. Jeśli nie zostanie określony, prefiks nazwy pliku zostanie wygenerowany automatycznie. Ta właściwość nie ma zastosowania, gdy źródło jest magazynem opartym na plikach ani opcją partycji włączonego magazynu danych.

Podsumowanie tabeli

Rozdzielany tekst jako źródło

Następujące właściwości są obsługiwane w sekcji Źródło działania kopiowania podczas używania formatu tekstu rozdzielanego.

NazwaOpisWartośćWymaganeWłaściwość skryptu JSON
Format plikuFormat pliku, którego chcesz użyć.Rozdzielany tekstTaktype (w obszarze datasetSettings):
Rozdzielany tekst
Typ kompresjiKoder kodowy kompresji używany do odczytywania rozdzielanych plików tekstowych.Wybierz spośród opcji:
Brak
bzip2
Gzip
Deflate
ZipDeflate
TarGzip
Tar
Nietype (w obszarze compression):

bzip2
Gzip
Deflate
ZipDeflate
TarGzip
Tar

Zachowaj nazwę pliku zip jako folderWskazuje, czy podczas kopiowania zachować nazwę źródłowego pliku zip jako strukturę folderów. Ma zastosowanie podczas wybierania kompresji ZipDeflate .Wybrane lub usuń zaznaczenieNiepreserveZipFileNameAsFolder
(w obszarze compressionProperties->type jako ZipDeflateReadSettings)
Zachowaj nazwę pliku kompresji jako folderWskazuje, czy podczas kopiowania zachować nazwę skompresowanego pliku źródłowego jako strukturę folderów. Ma zastosowanie podczas wybierania kompresji TarGzip/tar .Wybrane lub usuń zaznaczenieNiepreserveCompressionFileNameAsFolder
(w obszarze compressionProperties—>type jako TarGZipReadSettings lub TarReadSettings)
Poziom kompresjiWspółczynnik kompresji. Dozwolone wartości są optymalne lub najszybsze.Optymalna lub najszybszaNiepoziom (w obszarze compression):
Najszybszy
Optymalne
Ogranicznik kolumnZnaki używane do oddzielania kolumn w pliku.< ogranicznik wybranej kolumny >
Przecinek, (domyślnie)
NiecolumnDelimiter
Ogranicznik wierszyZnak używany do rozdzielania wierszy w pliku.< ogranicznik wybranego wiersza >
\r,\n (domyślnie) lub r\n
NierowDelimiter
KodowanieTyp kodowania używany do odczytu/zapisu plików testowych."UTF-8" (domyślnie),"UTF-8 bez BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140"", "IBM01141", "IBM01142", "IBM01143", "IBM011444", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252"1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258"NieencodingName
Znak ucieczkiPojedynczy znak do ucieczki cudzysłowów wewnątrz wartości cudzysłowu. Gdy znak ucieczki jest zdefiniowany jako pusty ciąg, znak cudzysłowu musi być również ustawiony jako pusty ciąg, w którym przypadku upewnij się, że wszystkie wartości kolumn nie zawierają ograniczników.< wybrany znak ucieczki >
Ukośnik odwrotny\ (domyślnie)
NieescapeChar
Znak cudzysłowuPojedynczy znak do cudzysłowu wartości kolumn, jeśli zawiera ogranicznik kolumn. Gdy znak cudzysłowu jest zdefiniowany jako pusty ciąg, oznacza to, że nie ma znaku cudzysłowu, a wartość kolumny nie jest cytowana, a znak ucieczki jest używany do ucieczki ogranicznika kolumny i samego siebie.< wybrany znak cudzysłowu >
Cudzysłów" (domyślnie)
NiequoteChar
Pierwszy wiersz jako nagłówekOkreśla, czy należy traktować pierwszy wiersz w danym arkuszu/zakresie jako wiersz nagłówka z nazwami kolumn.Wybrane lub niezaznaczoneNiefirstRowAsHeader:
prawda lub fałsz (wartość domyślna)
Wartość nullOkreśla reprezentację ciągu wartości null. Wartość domyślna to pusty ciąg.< reprezentacja ciągu wartości null >
pusty ciąg (domyślnie)
NienullValue
Pomiń liczbę wierszyWskazuje liczbę niepustych wierszy do pominięcia podczas odczytywania danych z plików wejściowych. Jeśli określono wartość Pomiń liczbę wierszy i Pierwszy wiersz jako nagłówek , najpierw pominięto wiersze, a następnie informacje nagłówka są odczytywane z pliku wejściowego.< liczba wierszy pominięcia >NieskipLineCount

Rozdzielany tekst jako miejsce docelowe

Następujące właściwości są obsługiwane w sekcji miejsce docelowe działania kopiowania w przypadku korzystania z formatu tekstu rozdzielanego.

NazwaOpisWartośćWymaganeWłaściwość skryptu JSON
Format plikuFormat pliku, którego chcesz użyć.Rozdzielany tekstTaktype (w obszarze datasetSettings):
Rozdzielany tekst
Typ kompresjiKoder kompresji używany do pisania rozdzielanych plików tekstowych.Wybierz spośród opcji:
Brak
bzip2
Gzip
Deflate
ZipDeflate
TarGzip
Tar
Nietype (w obszarze compression):

bzip2
Gzip
Deflate
ZipDeflate
TarGzip
Tar

Zachowaj nazwę pliku zip jako folderWskazuje, czy podczas kopiowania zachować nazwę źródłowego pliku zip jako strukturę folderów.Wybrane lub usuń zaznaczenieNiepreserveZipFileNameAsFolder
(w obszarze compressionProperties->type jako ZipDeflateReadSettings)
Zachowaj nazwę pliku kompresji jako folderWskazuje, czy podczas kopiowania zachować nazwę skompresowanego pliku źródłowego jako strukturę folderów.Wybrane lub usuń zaznaczenieNiepreserveCompressionFileNameAsFolder
(w obszarze compressionProperties—>type jako TarGZipReadSettings lub TarReadSettings)
Poziom kompresjiWspółczynnik kompresji. Dozwolone wartości są optymalne lub najszybsze.Optymalna lub najszybszaNiepoziom (w obszarze compression):
Najszybszy
Optymalne
Ogranicznik kolumnZnaki używane do oddzielania kolumn w pliku.< ogranicznik wybranej kolumny >
przecinek , (domyślnie)
NiecolumnDelimiter
Ogranicznik wierszyZnak używany do rozdzielania wierszy w pliku.< ogranicznik wybranego wiersza >
\r,\n (domyślnie) lub r\n
NierowDelimiter
KodowanieTyp kodowania używany do odczytu/zapisu plików testowych."UTF-8" (domyślnie),"UTF-8 bez BOM", "UTF-16", "UTF-16BE", "UTF-32", "UTF-32BE", "US-ASCII", "UTF-7", "BIG5", "EUC-JP", "EUC-KR", "GB2312", "GB18030", "JOHAB", "SHIFT-JIS", "CP875", "CP866", "IBM00858", "IBM037", "IBM273", "IBM437", "IBM500", "IBM737", "IBM775", "IBM850", "IBM852", "IBM855", "IBM857", "IBM860", "IBM861", "IBM863", "IBM864", "IBM865", "IBM869", "IBM870", "IBM01140"", "IBM01141", "IBM01142", "IBM01143", "IBM011444", "IBM01145", "IBM01146", "IBM01147", "IBM01148", "IBM01149", "ISO-2022-JP", "ISO-2022-KR", "ISO-8859-1", "ISO-8859-2", "ISO-8859-3", "ISO-8859-4", "ISO-8859-5", "ISO-8859-6", "ISO-8859-7", "ISO-8859-8", "ISO-8859-9", "ISO-8859-13", "ISO-8859-15", "WINDOWS-874", "WINDOWS-1250", "WINDOWS-1251", "WINDOWS-1252", "WINDOWS-1252"1253", "WINDOWS-1254", "WINDOWS-1255", "WINDOWS-1256", "WINDOWS-1257", "WINDOWS-1258"NieencodingName
Znak ucieczkiPojedynczy znak do ucieczki cudzysłowów wewnątrz wartości cudzysłowu. Gdy znak ucieczki jest zdefiniowany jako pusty ciąg, znak cudzysłowu musi być również ustawiony jako pusty ciąg, w którym przypadku upewnij się, że wszystkie wartości kolumn nie zawierają ograniczników.< wybrany znak ucieczki >
Ukośnik odwrotny\ (domyślnie)
NieescapeChar
Znak cudzysłowuPojedynczy znak do cudzysłowu wartości kolumn, jeśli zawiera ogranicznik kolumn. Gdy znak cudzysłowu jest zdefiniowany jako pusty ciąg, oznacza to, że nie ma znaku cudzysłowu, a wartość kolumny nie jest cytowana, a znak ucieczki jest używany do ucieczki ogranicznika kolumny i samego siebie.< wybrany znak cudzysłowu >
Cudzysłów" (domyślnie)
NiequoteChar
Pierwszy wiersz jako nagłówekOkreśla, czy należy traktować pierwszy wiersz w danym arkuszu/zakresie jako wiersz nagłówka z nazwami kolumn.Wybrane lub niezaznaczoneNiefirstRowAsHeader:
prawda lub fałsz (wartość domyślna)
Zacytuj cały tekstUjmij wszystkie wartości w cudzysłowie.Wybrane (domyślne) lub niezaznaczoneNiequoteAllText:
true (wartość domyślna) lub fałsz
FormatemRozszerzenie pliku używane do nazywania plików wyjściowych.< rozszerzenie pliku >
.txt (domyślnie)
NiefileExtension
Maksymalna liczba wierszy na plikPodczas zapisywania danych w folderze można wybrać zapisywanie w wielu plikach i określić maksymalną liczbę wierszy na plik.< maksymalna liczba wierszy na plik >NiemaxRowsPerFile
Prefiks nazwy plikuMa zastosowanie, gdy skonfigurowano maksymalną liczbę wierszy na plik . Określ prefiks nazwy pliku podczas zapisywania danych w wielu plikach, co spowodowało następujący wzorzec: <fileNamePrefix>_00000.<fileExtension>. Jeśli nie zostanie określony, prefiks nazwy pliku zostanie wygenerowany automatycznie. Ta właściwość nie ma zastosowania, gdy źródło jest magazynem opartym na plikach ani opcją partycji włączonego magazynu danych.< prefiks nazwy pliku >NiefileNamePrefix

Następne kroki

Omówienie łączników

Top Articles
Latest Posts
Article information

Author: Kelle Weber

Last Updated: 20/07/2023

Views: 6218

Rating: 4.2 / 5 (73 voted)

Reviews: 80% of readers found this page helpful

Author information

Name: Kelle Weber

Birthday: 2000-08-05

Address: 6796 Juan Square, Markfort, MN 58988

Phone: +8215934114615

Job: Hospitality Director

Hobby: tabletop games, Foreign language learning, Leather crafting, Horseback riding, Swimming, Knapping, Handball

Introduction: My name is Kelle Weber, I am a magnificent, enchanting, fair, joyous, light, determined, joyous person who loves writing and wants to share my knowledge and understanding with you.